计算机应用技术
电子科技大学
2017(学位年度)
摘要:在机器学习领域中,直接利用高维的感知数据,例如视觉语音信号等,训练学习并获得一个具有良好控制策略的决策系统仍然是一个挑战性的问题。在Deep Q-Learning Network(DQN)提出以前,现有领域内成功的强化学习应用案例主要依赖于组合人工特征或者策略表达来实现,特征的适用性严重影响最后的结果。
随着深度强化学习领域的发展,利用DQN算法直接从高维数据以及环境的反馈中,能够以平稳的方式成功地学习到一个非常好的控制策略,在Atari环境中大部分游戏取得了非常好的表现。利用卷积神经网络拥有的直接从高维数据中提取特征的能力以及Q-Learning算法用于训练动作评价网络,DQN在游戏智能领域提供了新的解决思路。
然而仍然存在一系列的挑战。首先DQN需要一个完全观测的状态信息,在面对需要超过4帧信息用以表示当前状态的时候,并不能获得一个非常好的控制策略,例如在3D环境下。稀疏、有延迟的、有噪声的奖励信号是另一个问题,强化学习需要从这样一个奖励信号中去学习控制策略,但是由于样本间的强相关性以及奖励信号所存在的问题,往往不能获得比较好的效果。
本文利用LSTM(Long-Short Term Memory)网络对长时间状态的记忆能力,以及使用改进的异步训练算法,根据实验的具体情况设计一个基于深度神经网络的游戏智能系统,并在一个3D环境下,验证智能系统所学习到的决策能力。