
大语言模型:原理、应用与优化
零基础理解、构建、使用大模型
¥53.00
作品简介
这是一本从工程化角度讲解大语言模型的核心技术、构建方法与前沿应用的著作。首先从语言模型的原理和大模型的基础构件入手,详细梳理了大模型技术的发展脉络,深入探讨了大模型预训练与对齐的方法;然后阐明了大模型训练中的算法设计、数据处理和分布式训练的核心原理,展示了这一系统性工程的复杂性与实现路径。
苏之阳,博士,毕业于香港科技大学,现任小冰公司研发总监,专注于自然语言处理产品的研发工作。他主导了小冰框架、小冰智能评论和XEva等项目的架构设计和开发,特别是在大语言模型的研发与应用方面具有丰富的经验。他曾任微软公司资深研发工程师,并在国际学术会议和期刊上发表多篇高水平学术论文。他的研究兴趣涵盖自然语言处理、深度学习以及云计算等领域。
王锦鹏,博士,致力于自然语言处理和推荐系统的研发,拥有在微软亚洲研究院等科技公司担任关键技术岗位的经验,参与了Office文档预训练、推荐大模型等多个重要项目的研发和优化工作。在国际会议和学术期刊上发表了逾30篇高质量论文,并在ACL、EMNLP、AAAI等顶级会议中担任审稿人。
姜迪,博士,拥有十余年工业界研发和管理经验,在雅虎、百度等知名互联网企业工作期间,为企业的多个关键业务研发了核心解决方案。在自然语言处理和数据挖掘领域的会议和期刊上发表了数十篇论文并出版了多部学术专著,获得了多个最佳论文奖和CCF奖项,还在IJCAI、WWW、AAAI、CIKM、COLING等多个会议担任委员会成员。
宋元峰,博士,曾就职于百度、腾讯等互联网公司,在人工智能产品开发领域拥有丰富的经验,研究涉及自然语言处理、数据挖掘与可视化等方向,并在KDD、ICDM等国际学术会议和期刊上发表多篇论文。
作品目录
前言
第1章 语言模型简介
1.1 传统语言模型
1.2 大语言模型
1.3 大模型实例
1.4 小结
第2章 大模型网络结构
2.1 Seq2Seq结构
2.2 注意力机制
2.3 Transformer架构
2.4 词元化
2.5 解码策略
2.6 小结
第3章 大模型学习范式的演进
3.1 预训练与微调的原理和典型模型
3.2 多任务学习的原理和典型模型
3.3 大规模模型的能力
3.4 小结
第4章 大模型对齐训练
4.1 对齐
4.2 基于人类反馈的强化学习
4.3 基于AI反馈的强化学习
4.4 直接偏好优化
4.5 超级对齐
4.6 小结
第5章 大模型评测与数据集
5.1 大模型评测方法
5.2 大模型评测指标
5.3 大模型能力评测基准
5.4 数据集及预处理方法
5.5 小结
第6章 分布式训练与内存优化
6.1 大模型扩展法则
6.2 分布式训练策略
6.3 大模型训练中的不稳定现象
6.4 分布式训练集群架构
6.5 内存优化策略
6.6 分布式训练框架
6.7 小结
第7章 大模型的垂直场景适配方案
7.1 从零开始训练新模型
7.2 全量参数微调
7.3 低参数量微调
7.4 超低参数量微调的探索
7.5 小结
第8章 知识融合与工具使用
8.1 知识融合
8.2 工具使用
8.3 自主智能体
8.4 小结
第9章 大模型的进阶优化
9.1 模型小型化
9.2 推理能力及其延伸
9.3 代码生成
9.4 多模态大模型
9.5 高质量数据的作用与构建
9.6 模型能力“涌现”的原因
9.7 小结
第10章 大模型的局限性与未来发展方向
10.1 大模型的局限性
10.2 大模型的未来发展方向
10.3 小结
参考文献