
在无模型强化学习中,随机搜索方法的使用及其效果一直是一个备受争议的话题。尽管随机搜索在某些简单问题上的表现良好,但在面对复杂问题时,其效果往往不尽如人意。为了纠正这一观点,我们提出了一种随机搜索方法,用于训练连续控制问题的静态线性策略,并在MuJoCo运动基准任务中实现了与最先进的样本效率相匹配的表现。我们的方法不仅解决了线性二次调节器这一经典问题,而且在数百个随机种子和各种超参数配置下,其计算效率远超基准测试中最快的无模型方法,至少高出15倍。
我们的研究从了解线性化原理的反面知识开始。随机搜索在简单的线性问题上表现出色,其效果甚至优于一些强化学习方法,如策略梯度。那么,当遇到更复杂的问题时,随机搜索会失效吗?答案是否定的。
我们将随机搜索应用于深度强化学习社区关注的基准问题。深度强化学习社区长期致力于在由OpenAI维护的、基于MuJoCo模拟器的基准任务上取得进展。在这些任务中,最优控制问题旨在让模拟的足式机器人在一个方向上尽可能远、尽可能快地走。虽然有些任务相对简单,但还有一些任务相当困难,如处理具有22个自由度的复杂人形模型。人形机器人的动力学特性由哈密顿方程描述,但规划其移动却具有挑战性,因为模型是分段线性的,目标函数的设计并不清晰。每当机器人与固体物体接触时,模型都会发生变化,引入一种以前未作用于机器人的正向力。对于强化学习来说,设计一种无需处理复杂非线性模型的机器人控制器是一个有趣而具有挑战性的任务。
最近,Salimans和他的同事们发现随机搜索在这些基准任务中表现良好。他们使用了一种改进的随机搜索方法,即进化策略来适应网络控制器。Rajeswaran等人表明自然策略梯度可以学习线性策略来完成这些基准任务。这引发了我们的一个问题:简单的随机搜索能否为这些MuJoCo任务找到线性控制器?
为了回答这个问题,我们的学生Aurelia Guy和Horia Mania进行了实验。令人惊讶的是,一个简单的随机搜索算法就学会了Swimmer-v1、Hopper-v1、HalfCheetah-v1、Walker2d-v1和Ant-v1任务的线性策略,达到了以前文献中提出的奖励阈值。随机搜索并非完美无缺。对于人形机器人任务,他们遇到了困难。在尝试了许多参数设置之后,他们决定增强随机搜索以加快训练速度。Horia注意到强化学习论文经常使用状态统计数据,并在将状态传递到定义网络的状态到动作映射之前对其进行白化处理。他开始尝试对状态进行估算和白化处理,然后再将其传递给线性控制器。这个简单的技巧使得人形机器人任务的性能得到了显著提升,获得了超过11000的奖励,这是前所未有的成绩。
这个简单的技巧不仅大大提高了计算效率,使得我们可以在一个标准EC2实例上在小时内训练出高性能的人形模型控制器,而且还在Swimmer-v1、Hopper-v1和HalfCheetah-v1等任务上取得了突破性的进展。它在Walker2d-v1和Ant-v1上的表现还不够好。为此,我们可以进一步改进这个方法,去掉那些没有得到好的奖励的采样方向。这个额外的调整使得随机搜索能够匹配或超过OpenAIGym中所有MuJoCo基线的最高性能表现。值得注意的是,我们的方法并未局限于与策略梯度的比较,而是超越了所有无模型强化学习方法的成果。这表明对于MuJoCo任务来说纯粹的随机搜索可能是一个更好的解决方案而不是深度强化学习和网络的使用。在一些细微调整的随机搜索对于这些MuJoCo任务的表现超过了所有其他方法并且速度更快得多这是一个非常重要的发现对于强化学习领域来说具有深远的影响它表明我们可能可以通过更简单的方法解决一些复杂的问题而无需过度依赖深度学习和复杂的网络结构对于感兴趣的人可以在论文中查看更多详细信息以及相关代码链接可以在文末找到如果您想了解更多关于强化学习的内容请关注我们的博客或社交媒体渠道我们会持续分享最新的研究成果和技术进展同时也欢迎读者提问或交流你的想法我们很乐意与您一起探讨未来的研究方向让我们一起推动强化学习技术的发展迈向更广阔的未来同时我们也需要意识到当前的基准测试可能存在一些问题它们过于注重计算效率而忽略了算法的稳定性和泛化能力未来的研究应该更多地关注如何建立更加稳健和实用的基准测试体系以便更好地评估强化学习算法的性能和可靠性总的来说我们的研究表明算法简单性计算效率和性能评估的重要性是强化学习领域未来发展的重要方向我们期待与您一起在这个领域取得更多的突破和创新成果
