【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

共 392字，需浏览 1分钟

·

2022-06-26 23:45

来源：专知
本文为论文介绍，建议阅读5分钟
我们的方法比以前的方法更有优势，特别是在泛化到非分布行为策略上。

我们研究离线元强化学习，这是一种实用的强化学习范式，从离线数据中学习以适应新的任务。离线数据的分布由行为策略和任务共同决定。现有的离线元强化学习算法无法区分这些因素，导致任务表示对行为策略的变化不稳定。为了解决这个问题，我们提出了一个任务表示的对比学习框架，该框架对训练和测试中的行为策略分布不匹配具有鲁棒性。我们设计了一个双层编码器结构，使用互信息最大化来形式化任务表示学习，导出了一个对比学习目标，并引入了几种方法来近似负对的真实分布。在各种离线元强化学习基准上的实验表明，我们的方法比以前的方法更有优势，特别是在泛化到非分布行为策略上。代码可以在https://github.com/PKU-AI-Edge/CORRO上找到。

浏览 16

点赞

收藏

分享

举报

评论

图片

表情

Dopamine基于 Tensorflow 的强化学习框架

Dopamine是由GoogleAI实验室推出的一个基于Tensorflow的强化学习（RL）框架，旨在为新手和资深RL研究人员提供灵活性、稳定性和可重复性。该框架受大脑中的奖励动机行为启发，反映了神

Dopamine基于 Tensorflow 的强化学习框架

Dopamine基于 Tensorflow 的强化学习框架

Dopamine 是由 Google AI 实验室推出的一个基于 Tensorflow 的强化学习（

Dopamine基于 Tensorflow 的强化学习框架

基于强化学习的自动化剪枝模型

深度学习的发展方向：深度强化学习！

小白学视觉

深度学习的发展方向：深度强化学习！

【深度学习】深度学习的发展方向：深度强化学习！

机器学习初学者

Tianshou（天授）基于 PyTorch 的强化学习平台

Tianshou（天授）是纯基于 PyTorch的强化学习平台，与现有的主要基于TensorFlow的强化学习库不同，Tianshou没有繁杂的嵌套类、不友好的API和速度较慢的代码，其提供了用于构建

Tianshou（天授）基于 PyTorch 的强化学习平台

Tianshou（天授）基于 PyTorch 的强化学习平台

Tianshou（天授）是纯基于 PyTorch 的强化学习平台，与现有的主要基于 TensorFl

Tianshou（天授）基于 PyTorch 的强化学习平台

基于视觉模型强化学习的通用机器人

小白学视觉

TensorLayer基于TensorFlow的新型深度学习和强化学习库

TensorLayer是一个基于TensorFlow的新型深度学习和强化学习库，专为研究人员和工程师而设计。它提供了大量可自定义的神经层/功能，这些是构建真实AI应用程序的关键。TensorLayer

TensorLayer基于TensorFlow的新型深度学习和强化学习库

点赞

收藏

分享

举报