新一代人工智能与语音识别

马延周
内容简介 有关俄语语音识别的研究在中国尚处于起步阶段,此技术在中俄两国的民间交流和军事交往中发挥着重要作用。本书充分利用了新一代人工智能技术的研究成果,介绍了基于新闻语料的俄语连续语音识别技术。本书的目标是建立基于Kaldi环境设计并实现的俄语连续语音识别原型系统,使其同时具备在线识别功能和离线识别功能,以验证声学模型和语言模型的优化算法的有效性,进而为面向特定领域的俄语语音识别实用系统的研发提供理论方法、实验数据和关键技术支撑。为了实现上述目标,本书详细介绍了俄语语音语料的采集、加工、处理,俄语文本语料的采集、清洗、过滤,俄语发音词典的自动预测、生成,声学模型建模基本单元(音素集)的确定,声学模型和语言模型的优化。 本书可作为高等院校外国语言学及应用语言学专业、电子信息和通信类专业本科生及研究生的教学参考书,也可供语音信息处理与应用开发等领域的研究人员使用。 序 自动语音识别(Automatic Speech Recognition,ASR)是自然语言处理(Natural Language Processing,NLP)的一个重要领域。 世界上第一台能够自动识别语音的机器当属一种名为Radio Rex的玩具。这种玩具出现于20世纪20年代。Radio Rex是一个用赛璐璐材料制作成的玩具狗,它受到一根弹簧的控制,弹簧在500Hz的声音频率下会释放,弹簧一旦释放,玩具狗就会动起来。由于500Hz的频率粗略等于单词Rex中元音的第一个共振峰的频率,因此当人们说出Rex的时候,这只叫作Radio Rex的玩具狗就会在人们的呼唤声中自动走过来。 20世纪40年代末至50年代初,美国建立了一系列机器语音识别系统。早期,美国贝尔实验室中的系统可以识别一个单独说话人讲出的10个数字中的任何一个,这个系统存储了不依赖于说话人的10个模式,每个数字各有一个模式,每个模式都代表每个数字…