大模型垂直领域低算力迁移:微调、部署与优化

程戈
PREFACE 前言 2022年,ChatGPT的横空出世,彻底颠覆了我对人工智能能力上限的认知。同时,作为一名创业者,我也敏锐地感觉到大模型除了带来内容生产方式的变革外,还将成为新一代人机交互的核心,并作为智能代理来构建自动化和半自动化的工作流程,甚至能与工业控制、机器人、消费电子领域相结合,引发深刻的社会变革。 当前,在大模型领域,正在重演类似iPhone与Android的局面。OpenAI已经建立了类似iPhone的生态,通过应用市场提供ChatGPT插件和定制版本的GPT模型。这些模型允许ChatGPT接入外部数据或工具,使开发者能够创建针对特定用途或业务场景的定制化模型,从而将ChatGPT扩展到各个领域,以应对不同的使用场景。同时,面对通用大模型的高昂开发成本与OpenAI的先发优势,只有少量头部企业才有资源在这个领域与其竞争。 Meta和Hugging Face等公司不断推进大模型技术的开源发展,重演了Android在移动互联网中的开源竞争策略,吸引了众多中小创新企业加入,共同构建针对特定细分领域的垂直大模型生态系统。大模型在垂直领域的应用不仅遵循特定商业场景的逻辑,还注重挖掘和增强产业价值。基于开源的通用大模型,中小规模的创新企业可以通过定制化垂直领域解决方案来构筑其技术和数据的商业优势,这是它们在当前大模型发展浪潮中建立竞争壁垒的关键途径。 然而,这种大模型在垂直领域的迁移存在很高的技术门槛。例如,如何解决大模型在领域迁移中的数据处理问题,如何在有限的算力下进行高效微调,如何部署这些模型以满足实际应用的需求,以及如何持续优化以降低部署后的推理成本等。整个工业界与学术界都缺乏这样的专业人才,也没有合适的资料介绍垂直领域迁移所涉及的完整知识体系。 我们的团队在2023年初就开始尝试在司法以及工业设计等领域迁移开源的大模型,在不断的“填坑”过程中,逐渐积累了大…