Kaldi(4)语音识别基本流程

如需转载本网站内容，请标明转载来源，且保持作品完整性

语音识别就是把一段语音信号转化为相应的文本信息。主要包括：

特征提取
声学模型
语言模型
字典与解码

为了可以更好的提取特征，通常会对采取的声音信号进行滤波、奋争等音频数据的处理工作，作用是将要分析的音频信号从原始信号中合适地取出来；特征提取工作将声音信号从时域转换到频域，为声学模型提供合适的特征向量；声学模型再根据声学特征计算每一个特征向量在声学特征上的得分；而语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率；最后根据已有的字典，对词组序列进行解码，得到最后可能的文本表示。

blockchain

好记性不如烂笔头

目录