设计应用

联合随机性策略的深度强化学习探索方法

作者：杨尚彤，王子磊

发布日期：2021-06-10

来源：信息技术与网络安全

0 引言

目前，强化学习(reinforcement learning)作为机器学习领域的一个研究热点，已经在序列决策问题中取得了巨大的进步，广泛应用于游戏博弈[1]、机器人控制[2]、工业应用[3]等领域。近年来，许多强化学习方法利用神经网络来提高其性能，于是有了一个新的研究领域，被称为深度强化学习(Deep Reinfor-

cement Learning，DRL)[4]。但是强化学习仍然面临一个主要的问题：探索利用困境(exploration-exploitation dilemma)。在智能体学习过程中，探索(exploration)意味着智能体尝试之前没有做过的动作，有可能获得更高的利益，而利用(exploitation)是指智能体根据之前的经验选择当前最优的动作。目前，深度强化学习方法的研究主要集中在结合深度学习提高强化学习算法的泛化能力，如何有效地探索状态空间仍然是一个关键的挑战。

本文详细内容请下载：http://www.chinaaet.com/resource/share/2000003599

作者信息：

杨尚彤，王子磊

(中国科学技术大学网络空间安全学院，安徽合肥230027)

原创声明：此内容为AET网站原创，未经授权禁止转载。

强化学习深度强化学习探索利用困境

AET陪你走进工业以太网

《电子技术应用》全年合订本-电子版

何为现代数字城市？

2023年商业航天电子技术应用研讨会精彩回放中

进入了解AET零信任专题