好记性不如烂笔头

Kaldi(4)语音识别基本流程

Posted on By ZealerDrm

如需转载本网站内容,请标明转载来源,且保持作品完整性

语音识别就是把一段语音信号转化为相应的文本信息。主要包括:

  • 特征提取
  • 声学模型
  • 语言模型
  • 字典与解码

为了可以更好的提取特征,通常会对采取的声音信号进行滤波、奋争等音频数据的处理工作, 作用是将要分析的音频信号从原始信号中合适地取出来;特征提取工作将声音信号从时域转换到频域, 为声学模型提供合适的特征向量;声学模型再根据声学特征计算每一个特征向量在声学特征上的得分; 而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典, 对词组序列进行解码,得到最后可能的文本表示。

blockchain