设计应用

联合随机性策略的深度强化学习探索方法

作者: 杨尚彤,王子磊
发布日期:2021-06-10
来源:信息技术与网络安全

 0 引言

目前,强化学习(reinforcement learning)作为机器学习领域的一个研究热点,已经在序列决策问题中取得了巨大的进步,广泛应用于游戏博弈[1]、机器人控制[2]、工业应用[3]等领域。近年来,许多强化学习方法利用神经网络来提高其性能,于是有了一个新的研究领域,被称为深度强化学习(Deep Reinfor-

cement Learning,DRL)[4]。但是强化学习仍然面临一个主要的问题:探索利用困境(exploration-exploitation dilemma)。在智能体学习过程中,探索(exploration)意味着智能体尝试之前没有做过的动作,有可能获得更高的利益,而利用(exploitation)是指智能体根据之前的经验选择当前最优的动作。目前,深度强化学习方法的研究主要集中在结合深度学习提高强化学习算法的泛化能力,如何有效地探索状态空间仍然是一个关键的挑战。




本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003599




作者信息:

杨尚彤,王子磊

(中国科学技术大学 网络空间安全学院,安徽 合肥230027)


此内容为AET网站原创,未经授权禁止转载。
强化学习 深度强化学习 探索利用困境