大模型项目实战:Agent开发与应用
高强文
PREFACE前言
AI Agent(或简称为Agent)是建立在大语言模型之上的智能应用,是将人工智能与特定场景深度结合的重要方式。Agent模仿人类“思考-行动-观察”的规划模式,具备自主思考和自主决策的能力,能够适应环境的变化,自主学习和改进,完成用户设定的目标。与大语言模型的对话应用不同,Agent的突出特点是主动性,在行为上表现为多步操作、多角色会话、多轮迭代、反复修正答案以及调用外部资源的能力。
20世纪80年代,对于AI Agent是否能够真正产生自主性的、生物意义上的“智能”这一问题已在哲学层面展开讨论。20年前,深度学习的发展促进了Agent的进化。近几年来,在大语言模型的支持下,Agent越来越具备主动性,“思考”问题的方法也在参考人类特征的基础上,形成一套包含规划、记忆、工具和行动的功能规范。在Agent与大语言模型技术结合方面,ReAct、ToT、Reflexion、CoT等思考框架的研究成果不断,相关论文以及与之配套的开源代码诠释了理论如何变为现实。看似眼花缭乱实则科学严谨的提示词工程,在与大语言模型的交互中,使得Agent像施展魔法般地实现了人类预定的目标。展望未来,基于Agent,人们对通用人工智能(Artificial General Intelligence,AGI)充满了想象空间。
Agent的发展离不开大语言模型的支持,而大语言模型则通过Agent扩展其功能。随着GPT-4、GLM-4、Llama3、Qwen2等模型的发布,依托这些模型的应用技术也取得了显著的进步,GPT-4率先推出了Function-calling功能,其他模型也迅速跟进。这一创新反映了大语言模型将超越单纯的内容生成,向更智能、更主动、更有规划性的AGI方向发展。AutoGPT、BabyAGI等Agent应用的推出,使代表着主动思考、主动决策、主动执行的AGI技术取…