深度Q网络(Deep Q-Network, DQN)是一种结合了深度学习和强化学习的方法,用于解决序列决策问题。它是一种端到端的学习方法,可以直接从原始输入(如像素)中学习如何映射到动作值(即策略),而不需要任何手工特征工程。DQN最初由DeepMind在2015年提出,并在多款Atari 2600游戏上展示了其超人的性能,开启了深度学习在强化学习领域的应用热潮。
基本概念
在强化学习框架中,一个智能体(agent)通过与环境(environment)交互来学习策略,以最大化其总奖励。在每个时间步,智能体根据当前的状态(state)选择一个动作(action),环境根据这个动作提供下一个状态和即时奖励(reward)。DQN的目标是学习一个策略,即一个从状态到动作的映射,来最大化未来的累计奖励。
DQN的关键技术
-
经验回放(Experience Replay):DQN通过存储智能体的经验(状态、动作、奖励和下一个状态)在一个数据集(回放缓冲区)中,并在训练时随机抽取这些经验来打破数据间的相关性,从而提高学习的稳定性和效率。
-
固定Q目标(Fixed Q-Targets):在DQN中,用两个网络来解决自举(bootstrap)问题,即使用当前网络的权重来估计未来奖励。一个网络用于选择最优动作,另一个用于评估这个动作的价值。这个被称为目标网络的网络的权重是固定的