OpenAI 联合创始人预言成真!
共 2285字,需浏览 5分钟
·
2024-07-22 11:15
ChatGPT 火爆全球后,基于人类反馈的强化学习(RLHF)成为了一项可能让机器像人一样思考的重要技术。OpenAI 联合创始人、研究科学家 John Schulman 将“RLHF”看作是 ChatGPT 成功的秘密武器。
所以这次我整理了
+10年(2008-2018)NIPS顶会强化学习论文100篇
+ICLR2024强化学习和LLM相关论文573篇
+Neurips 2023 强化学习论文350篇
+ICLR2023顶会强化学习论文376篇
+强化学习发展路线 (含论文140篇)
+AAAI2023强化学习论文11篇
+经典强化论文合集100篇
扫码回复“强化学习”
立即领取1500篇强化学习顶会论文
最近,大语言模型LLM成为了大家关注的热点,在人机对话领域具有里程碑的意义。然而,传统的LLM并没有明确的动作层次上的策略,其潜在的策略可以看成是对Token的选择。
那么如何更好的学习基于深度强化学习任务型对话策略呢?
这次我邀请了国内985理工强校博士徐老师,在7月25日19点30和大家探讨任务型对话策略的现有研究方法、对话策略的评估方式、数据集,以及介绍经典论文,并且和大家分享对话策略在大模型中的应用以及未来的研究趋势。
扫码回复“强化学习”
预约25日晚19:30大咖直播
扫码回复“强化学习”
解锁三节强化学习系列课
左右滑动查看更多
扫码回复“大模型”
立即解锁顶会新idea
评论