Kaldi语音识别实战
陈果果 都家宇 那兴宇 等
内容简介
刚刚过去的十年是语音技术发展的黄金十年。2010年前后,从谷歌公司发布第一个语音搜索应用、苹果公司发布第一个语音助手Siri开始,语音技术的发展转瞬进入了快车道。语音技术的基础算法不断推陈出新,语音任务Benchmark持续被刷新;语音产品的应用也从一开始很小众的语音输入,逐渐渗透到人们生活的方方面面。
语音产业飞速发展,传统的语音技术教材已经满足不了该领域从业者的迫切需求。本书以目前流行的开源语音识别工具Kaldi为切入点,深入浅出地讲解了语音识别前沿的技术及它们的实践应用。本书的作者们拥有深厚的学术积累及丰富的工业界实战经验。
本书适合语音技术相关研究人员及互联网从业人员学习参考。 序1
最近这段时间我的生活有了一些戏剧性的变化,大家可以从一些新闻(比如《纽约时报》)中看到具体的报道。因为这些变化,我目前暂时在做一些咨询的工作,也因此有机会到世界各处巡游。比如此时此刻,在为这本书写序的时候,我正在土耳其伊斯坦布尔的一家小咖啡馆里。写序其实并不是一个我所擅长的事情,相对来说,我更喜欢写程序,但是我会尽我所能为这本书写序。
计算机软件很少有处在稳定状态的,对于Kaldi来说尤其如此。用鲨鱼的例子来做类比,鲨鱼是从来不休息的,必须通过持续的运动才能生存;Kaldi也是这样,这些年来一直都在一刻不停地、持续地发展壮大。当然,发展是一把双刃剑,这么高速的发展给Kaldi带来了很多发展红利,也不可避免地带来了问题。事实上,在当前版本的Kaldi开发中,我们做出了不少正确的决定,但是回过去看,也有不少不尽如人意的设计。因此,我目前正在为Kaldi规划一些比平常大得多的改动,比如更好地支持当前主流的机器学习框架,例如PyTorch。当然,Kaldi大部分的特性都会保持不变,因此我相信这本书的内容会一直有很大的参考价值。
Kaldi最宝贵的资产其实一直都是Kaldi的开源…