让人造太阳更近!DeepMind强化学习算法控制核聚变登上Nature
来源:机器之心 本文约2400字,建议阅读5分钟
用强化学习控制核聚变反应堆内过热的等离子体。
过去三年,DeepMind 和瑞士洛桑联邦理工学院 EPFL 一直在进行一个神秘的项目:用强化学习控制核聚变反应堆内过热的等离子体,如今它已宣告成功。
DeepMind研究科学家David Pfau在论文发表后感叹道:「为了分享这个时刻我已经等了很久,这是第一次在核聚变研究设备上进行深度强化学习的演示!」
第一阶段:设计者为实验指定目标,可能伴随着随时间变化的控制目标; 第二阶段:深度 RL 算法与托卡马克模拟器交互,以找到接近最优的控制策略来满足指定目标; 第三阶段:以神经网络表示的控制策略直接在托卡马克硬件上实时运行(零样本)。
图 1:控制器设计架构(controller design architecture)的各组件示意图。
图 2:等离子体电流、垂直稳定性、位置与形状控制的演示。
评论