王者荣耀的觉悟AI是怎么训练的?
↑↑↑点击上方蓝字,回复资料,10个G的惊喜
这里我们可以参考一下 Thomas Simonini 的解释:
强化学习的中心思想,就是让智能体在环境里学习。每个行动会对应各自的奖励,智能体通过分析数据来学习,怎样的情况下应该做怎样的事情。
其实,这样的学习过程和我们自然的经历非常相似。想象自己是个小孩子,第一次看到了火,然后走到了火边。你感受到了温暖。火是个好东西 (+1) 。
然后就试着去摸。卧槽,这么烫 (-1) 。
结论是,在稍远的地方火是好的,靠得太近就不好。这就是人类学习的方式,与环境交互。强化学习也是一样的道理,只是主角换成了计算机。
注:以上内容由量子位编译整理
顾名思义,机器学习是让“机器”进行“学习”的方法。这里的“机器”叫作模型,实际上是含有参数的数学式。对模型的参数进行调整,使之与给定的数据拟合的行为叫作“学习”。
各关键词之间的关系
机器学习的机制
■ 监督学习
事先给定数据和答案(标签),然后对模型的参数进行调整,让输出(标签)与给定的数据一致。
■ 无监督学习
事先仅给定数据,然后对模型的参数进行调整,以提取数据的特征(结构或表征)。
■ 强化学习
事先给定一个可以根据行动得到奖励的环境(任务),然后对模型的参数进行调整,以便让不同状态下的行动与奖励联系起来。
强化学习在根据行动给予奖励(≈正确答案)这一点上和监督学习非常相似。二者的不同点在于,强化学习不是根据单次的立即奖励进行优化的,其优化的目的是使整体奖励最大化。假设 1 天能得到 1000 元,但如果等待 3 天,就能得到 10 000 元。在这种情况下,行动分为“等待”与“不等待”。因为监督学习评价的是单次的行动结果,所以会选择“不等待”,每天得到 1000 元就是最优的选择。而强化学习把从环境开始到结束的整个期间(这个例子中是 3 天)叫作一个回合(episode),它的目的是使这一个回合内的整体奖励最大化,所以在强化学习中,“等待 3 天,得到 10 000 元”才是最优的选择。
也就是说,强化学习是根据能否让整体奖励最大化来评价行动的。至于如何进行评价,需要模型自己去学习。总结一下,强化学习的模型需要学习两项内容,分别是行动的评价方法和基于评价方法对行动进行选择的方法(策略)。
能对行动的评价方法进行学习是强化学习的一个优点。比如,对于围棋和象棋这样复杂的游戏,我们很难评价现在这一步下得有多好。但是,强化学习可以自己去学习评价方法。因此,对于人类通过感官和直觉来判断的过程,强化学习也是可以学习的。
但是,这也意味着行动的评价方法完全交给了模型。因为我们没有提供“标签”这样的正确答案,模型进行什么样的判断完全基于模型自己。
这个弱点和无监督学习的弱点是一致的。因此,强化学习有可能学习到违反人类直觉的评价方法,并采取违反人类直觉的行动。
强化学习是机器学习的重要分支之一,颇以入门困难、学习曲线陡峭著称。与监督学习和无监督学习算法相比,强化学习相关资料少、背景知识多、入门不友好。那有没有适合初学者入门强化学习的图书呢?今天就给大家推荐一本:《用Python动手学强化学习》。
如果你想把强化学习这门有趣的技术应用到自己的服务或项目中,那么本书就是为你量身定制的。因此,要想理解本书,需要能够看懂程序代码。不过本书的代码实现力求能让读者像读文章一样轻松看懂,所以大家不必太过担心。代码实现使用了 Python,但是本书并不包含 Python 语法的相关解说。
至于数学,各位也无须过于担心,只要具备初高中的数学水平,就可以读懂本书。不过,在学习第 4 章中的策略梯度、第 6 章中的逆强化学习的相关内容时,需要读者具备一些在大学阶段学习的线性代数和微分的知识。
最后,在本书中,一些已经非常普及的方法将仅使用中文表示,其他方法则同时给出中文和英文名称。这是因为强化学习的最新信息大多是英文的,给出英文名称可以方便大家检索。
本书的一大特色就是含有大量示例和可以直接运行的代码,比如第 1 章中给出了迷宫探索的具体示例,并通过对应的代码让读者明白如何解决这些探索问题。通过代码,读者可以直观理解强化学习的运作过程,而不是陷在公式的泥潭里无法自拔。这种写作风格也是为了实现让从业者快速入门并实践这一目标。
另外,本书涉及的知识点也较为全面:第 1 章介绍强化学习与其他技术的关系,并通过一个简单的示例让读者对强化学习有一个初步的了解;第 2 ~ 3 章分别介绍根据环境和经验制订计划的学习方法,是了解强化学习这一范式最为基础的两个章节;第 4 章着重介绍强化学习和神经网络的组合,以及深度强化学习;第 5 ~ 6 章分别介绍强化学习的一些弱点和克服弱点的方法;最后的第 7 章介绍强化学习的一些应用事例。
推荐阅读
(点击标题可跳转阅读)
老铁,三连支持一下,好吗?↓↓↓