MLOps工程实践：工具、技术与企业级应用

PREFACE 前言为什么写作本书我们非常幸运地见证了AlphaGo、ChatGPT等令人激动的人工智能技术的突破。不可否认，人工智能已经像手机、电力、网络一样融入每个人的工作和生活，进入各个行业。人工智能从早期在互联网企业的推荐、广告、搜索等场景中大放光彩，发展到在视觉、安防、金融等领域落地，再到今天走入交通、制造、生命科学等领域，并在排工排产、自动驾驶等场景中崭露头角。作为计算机科学的一个重要领域，机器学习也是目前人工智能领域非常活跃的分支之一。机器学习通过分析海量数据、总结规律，帮助人们解决众多实际问题。随着机器学习技术的发展，越来越多的企业将机器学习技术作为核心竞争力，并运用在实际业务中。但是，机器学习应用落地并非一件轻松的事情，AI开发者往往需要面对各个环节的挑战。这些环节包括目标定义、数据收集、数据清洗、特征提取、模型选择、模型训练、模型部署和模型监控等，其中任何一个环节出现失误，都可能影响算法和策略在最终业务中落地的效果，造成成倍的损失。反过来看，利用工程化技术去优化模型的自学习能力，能让模型保持持续更新、迭代和演进，随着数据和业务的变化不断进行自适应，避免衰退，始终保持在最佳状态，为业务场景带来更好的效果、更多的价值。除了效果之外，机器学习应用的开发效率也是阻碍落地的关键因素。像Google这样的互联网领头羊企业，其AI科学家与AI工程师也常常会遇到“开发一周，上线三月”的情况。因此需要针对每个模型花费数月时间进行正确性排查，覆盖模型鲁棒性、数据时序穿越、线上线下一致性、数据完整性等各个维度。从团队协作角度来看，数据、模型、算法的开发和部署需要不同的技能和知识，需要团队敏捷地进行沟通和协作。因此，建设一种可以在任何时间、任何环境被信任的团队合作模式、沟通渠道以及反馈机制，形成一个如敏捷迭代、Kubernetes一样的事实标准，可方便AI工程…