大语言模型:原理、应用与优化
苏之阳 王锦鹏 姜迪 等
前言
为何写作本书
自人类在20世纪40年代发明第一台计算机以来,计算机科学一直在高速发展。在过去的几十年里,计算机的计算速度和存储容量都大幅提高,促进了人工智能(Artificial Intelligence,AI)技术的发展和应用。随着深度学习技术的蓬勃发展,自然语言处理迅速崛起为人工智能领域的核心研究方向。在这个过程中,大语言模型(Large Language Model,LLM,本书简称为“大模型”)应运而生,成为自然语言处理领域近年来的一个重要成果。2022年11月30日,OpenAI推出新一代大模型ChatGPT,它表现出了令人惊艳的对话效果,回复有条理、有逻辑且多轮对话效果出色,引起了人们的广泛关注。
ChatGPT的出圈引发了许多人对它和大模型工作原理的好奇。有人误以为ChatGPT的工作方式类似于搜索引擎,背后有一个存储海量文本的“数据库”,ChatGPT通过在库中检索相关内容与用户进行交互。事实上并非如此,ChatGPT更像是一个读过海量书籍的智者,在读懂了所有内容之后,再将这些内容按照人们期望的方式进行回复。鉴于大家认识上的误区,为了帮助大家深入了解ChatGPT是什么,它是如何工作的,又将如何改变我们的生活,笔者萌生了写作本书的想法。
本书主要内容
本书共10章,从逻辑上分为四部分:
第一部分(第1~4章)由语言模型的基本概念入手,介绍了大模型的基础构件、技术发展的脉络及范式,以及模型对齐的方法。ChatGPT是一个大模型,而大模型首先是一个语言模型,语言模型是一种基于机器学习技术的自然语言处理模型,它可以学习语言的概率分布,从而实现对语言的理解和生成。大模型是一种新的技术范式,相较于传统语言模型,它不仅 “大”,而且可以理解人类的意图,并完成相应的指令与任务,也就是所谓的“对齐”与“指令跟随”。经过精心的训练,大模型甚至可以完成推理、规划和具有创…