TensorFlow自然语言处理

[澳] 图珊·加内格达拉(Thushan Ganegedara)
译者序 近几年来,自然语言处理(NLP)技术已经取得了阶段性进展,在电商、金融、翻译、智能硬件、医疗、旅游等行业广泛应用,应用场景涵盖语音交互、文本分类、情感分析、意图分析、图像识别等。在深度学习技术的驱动下,自然语言处理技术应用又上了一个台阶。这其中比较有代表性的是语音交互技术,在深度学习的驱动下,语音识别、声纹识别、语音合成等技术已经大规模应用于工业领域。以天猫精灵为代表的智能音箱也已经走入家庭生活中。根据Statista统计数据显示,在2018年,全球自然语言处理的市场规模达5.83亿美元,到2024年预计将达到约21亿美元,自然语言处理技术的应用前景广阔。 TensorFlow作为广泛使用的深度学习框架,在自然语言处理领域被广泛使用。比较成熟的应用场景有搜索引擎、个性化推荐、商业化广告、语音识别等。本书主要介绍NLP在TensorFlow中的实现,内容涉及词嵌入的各种方法、CNN/RNN/LSTM的TensorFlow实现及应用、LSTM在文本生成及图像标题生成方面的应用以及从统计机器翻译到神经网络翻译的转变,最后探讨自然语言处理的未来。通过结合TensorFlow的代码实现,可以让读者更容易理解自然语言处理技术的原理。 回顾2018年,自然语言处理技术的一个聚焦点是谷歌的BERT(Bidirectional Encoder Representations from Transformers)。谷歌AI团队新发布的BERT模型在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:两项衡量指标上全面超越人类,并且还在11种不同NLP测试中创出最佳成绩。毋庸置疑,BERT模型开启了NLP的新时代。BERT是基于Transformer的双向编码器表征。与其他语言表征模型不同,BERT旨在通过联合调节所有层中的上下文来预训练深度双向表征。BERT的另一个亮点是预训…