深度强化学习：学术前沿与实战应用

前言随着计算设备算力的不断提升和可用数据量的持续积累，基于大数据的机器学习（Machine Learning）方法近年来得到了空前的发展，且可以预见在一段时间内还将继续飞速发展。机器学习的突出成就离不开深度学习（Deep Learning）。深度神经网络的出现，使得原始图像、视频和自然语言等数据源可作为输入和输出，从而为诸多复杂问题提供了强大的解决方案。基于深度学习的人工智能产品也正在快速渗入和改变着我们的日常生活，如人脸识别、购物网站的个性化推荐、无人驾驶等。此外，机器翻译、自主决策、目标跟踪及一系列技术成果也在医疗、教育和网络安全等重要领域得到了实质性的应用。强化学习（Reinforcement Learning），又称再励学习、评价学习，是机器学习的一个重要分支，传统上主要用于解决与环境交互过程中的自主决策和自动控制问题，通过不断改善智能体自身的行为，学得最优的行动策略。广义上说，任何有“决策”的任务都可以使用强化学习方法，比如无人驾驶、机器人控制、游戏竞技等，但也不限于此，比如个性化推荐算法、网络传输等非控制领域也可以使用强化学习方法。近年来，最著名的强化学习应用当属AlphaGo围棋，其学得的策略所表现出的控制/决策能力已经达到甚至超过了人类顶级水平，其中使用了深度强化学习（Deep Reinforcement Learning）。深度强化学习是强化学习的重要发展，是指采用深度神经网络作为模型的强化学习方法。它的起源很早，但著名的案例是Google DeepMind在2013年NIPS研讨会上发表的DQN（Deep Q Network）方法，该方法在多款Atari游戏中取得了不俗的表现。之后，深度强化学习的发展便一发不可收拾，学术界和工业界均大力推动其发展。本书重点讲解深度强化学习近年来的重要进展及其典型应用场景。本书共分为四篇，即深度强化学习、多智能体深…