公开反驳!数据科学家直指DeepMind,“强化学习无法实现通用人工智能”
编审:寇建超
Silver 等人认为,简单的奖励是丰富环境中的代理人开发多属性智能的全部需要,而这种多属性智能正是实现通用人工智能所需的全部。
但很显然,并不是所有人都同意这一观点。
(来源:VentureBeat)
值得一提的是,Roitblat 也是 Algorithms Are Not Enough: How to Create Artificial General Intelligence 一书的作者。
产生智能的前提存在误导
Silver 等人更进一步,还提出它足以达到智能,特别是足以解释通用人工智能。Silver 等人的论点可以归纳为以下三个命题:
奖励最大化足以产生智能。“奖励最大化的通用目标足以驱动表现出自然和人工智能中所研究的大多数(如果不是全部)能力的行为。”
智力是实现目标的能力。“智力可以被理解为实现目标的灵活能力。”
成功是通过最大化奖励来衡量的。“因此,成功是通过最大化奖励来衡量的。”
引用一位 18 世纪法国作家 Voltaire 的话说,他的博士 Pangloss 在 Candide 中曾这样说:"请注意,鼻子的形成是为了承受眼镜,因此我们有了眼镜。" 一定有一个问题可以通过任何特征来解决,在这种情况下,他声称鼻子的形成只是为了让眼镜可以被托起。Pangloss 还表示:"可以证明......事物不可能不是本来的样子;因为一切都是为了一个目的而创造的,一切都必然是为了最好的目的。"
智能的诱发存在多种影响因素
而 Roitblat 的观点是:对 Silver 等人来说,这个目的就是一个解决问题的方法,而智能的学习正是为了这个目的,但我们不一定知道这个目的是什么,也不知道是什么环境特征诱发了它,但一定有什么东西。
Gould 和 Lewontin (1979) 很好地利用 Pangloss 博士批评他们所谓的进化生物学中的 “适应主义者( adaptationist )” 或“过分乐观者( Panglossian )”范式。适应主义的核心原则是,任何特征都必须有一个适应性的解释。
他们指出,威尼斯圣马可大教堂的高装饰拱门(两个拱门相交处近似三角形形状)是一个建筑特征,源于选择设计四个拱门的大教堂,而不是建筑设计的驱动力。拱门的选择决定了壁炉的位置,而不是壁炉的位置决定拱门。一旦建筑师选择了拱门,拱肩是必要的,而且可以进行装饰。Gould 和 Lewontin 说:“每个扇形拱顶都必须有一系列沿拱顶中线的开放空间,即扇形两侧在支柱之间相交的地方。由于这些空间必须存在,所以它们经常被用来达到巧妙的装饰效果。”
Gould 和 Lewontin 给出了另一个例子,对阿兹台克人祭祀同类相食的适应性解释。阿兹特克人从事活人祭祀。从适应主义的角度解释是,祭祀制度是解决肉类长期短缺问题的方法。受害者的四肢经常被社区中的某些地位高的成员吃掉。这种 “解释” 认为,构成这一精心设计的仪式性谋杀的神话、象征和传统系统是对肉的需求的结果,而事实可能恰恰相反。每一位新国王都必须超越他的上一任,为更多的人献上越来越精致的祭品。这种做法似乎使阿兹特克帝国的经济资源日益紧张。其他蛋白质来源很容易获得,只有某些已经拥有足够食物的特权人士才会吃牺牲的受害者的某些部分。如果目标是让饥饿的人吃到肉,那么人们会期望他们能够更有效地利用受害者,并更广泛地传播食物来源。对肉的需求不太可能成为人类牺牲的原因;相反,它似乎是其他文化习俗的结果,这些习俗实际上对阿兹特克文明的生存不适应。
引用 Silver 等人迄今为止的论点,如果目标是成为富人,那么只要积累大量的金钱就足够了。用积累金钱就可以用成为富人的目标来解释,成为富人的定义是积累了大量的金钱。强化学习没有解释一个人如何去积累金钱或为什么这应该是一个目标。他们认为,这些都是由环境决定的。
Silver 等人认为,如果一个智能体可以不断调整其行为以提高其累积奖励,那么其环境反复要求的任何能力最终都必须在智能体的行为中产生。
在Silver 等人在自然智能和通用人工智能之间进行了类比,并指出 “动物的经验流足够丰富和多样的,它可能需要一种灵活的能力来实现各种各样的子目标(例如觅食、战斗或逃跑),以便成功地最大化其整体奖励(例如饥饿或繁殖)。类似地,如果一个人工智能代理的经验流足够丰富,那么许多目标(例如电池寿命或生存)可能隐含地需要实现同样广泛的子目标的能力,因此奖励的最大化应该足以产生一种通用的人工智能。”
Roitblat 反驳道,只靠奖励本身其实是不够的,至少环境也发挥了作用。但适应的内容远不止这些。适应需要一个变异性的来源,从中可以选择出某些特征。进化生物学中这种变异的主要来源是突变和重组。任何生物体的繁殖都涉及到将基因从父母那里复制到孩子身上。复制的过程并不完美,并且会出现错误。其中许多错误是致命的,但也有一些不是,然后可用于自然选择。在有性繁殖的物种中,每一个亲本都贡献了其基因的一个副本(以及任何潜在的错误),这两个副本允许通过重组产生额外的变异性,一些来自一个亲本的基因,一些来自另一个亲本的基因传递给下一代。
奖励是选择。仅此而已,这是不够的。正如 Dawkins 所指出的,进化奖励是将特定基因传递给下一代。奖励是在基因层面,而不是在生物体或物种层面。任何能增加基因从一代传给下一代的机会的东西,都是对这种奖赏的调解,但请注意,基因本身并没有能力成为智能。
除了奖励和环境,其他因素也在进化和强化学习中发挥着作用。奖励只能从现有的原材料中进行选择。如果我们将一只老鼠扔进一个洞穴,它就不会像蝙蝠一样学会飞行和使用声纳。积累足够的突变需要多代甚至数百万年的时间,即便如此,也不能保证它能进化出与蝙蝠一样的解决洞穴问题的方法。强化学习是一个纯粹的选择性过程。强化学习是提高行动概率的过程,这些行动共同构成了处理某种环境的政策。这些行动必须已经存在,才能被选中。至少就目前而言,这些行动是由进化中的基因和人工智能中的程序设计师提供的。
针对这一问题,Silver 等人在论文中也提到,在不同的环境中实现不同的奖励最大化可能会导致不同的、强大的智能形式,每一种智能都会表现出自己令人印象深刻的、但又无法比拟的一系列能力。一个好的奖励最大化的代理将利用其环境中存在的任何元素,但某种形式的智能的出现并不以它们的具体内容为前提。
当 Rumelhart 和 McClelland 建立他们的过去式学习者时,同样未被承认的幸运选择发生了。他们选择的表征恰好反映了他们希望他们的神经网络能够学习的信息。这不是单纯依靠一般学习机制的 “白板”。Silver 等人在题为 “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play” 的论文中指出,在开发 AlphaZero 时也很 "幸运",他们在本文中提到了这一点。他们在提出这一主张的同时,对 AlphaZero 进行了更详细的说明。
他们的结果表明,一个通用的强化学习算法可以在没有特定领域的人类知识或数据的情况下学习“白板”,同一算法在多个领域的成功学习证明了这一点,在多个具有挑战性的游戏中表现出了超人的表现。
他们还指出,AlphaZero 用深度神经网络、通用强化学习算法和通用树形搜索算法取代了传统游戏程序中使用的手工知识和特定领域的增强功能。
他们不包括明确的针对游戏的计算指令,但确实包括了人类对解决问题的重大贡献。例如,他们的模型包括一个 "神经网络 fθ(s),[它]将棋盘位置 s 作为输入,并输出一个移动概率矢量"。换句话说,他们并不期望计算机知道它在玩游戏,或者游戏是通过轮流进行的,或者它不能只是把围棋棋子堆成一堆或把棋盘扔在地上。他们还提供了许多其他的约束条件,例如,让机器与自己对弈。他们使用的树状表示法曾经是代表游戏玩法的巨大创新。树的分支对应于可能的移动范围,没有其他操作是可能的。计算机还被提供了一种使用蒙特卡洛树形搜索算法搜索树的方法,并且提供了游戏的规则。
在没有约束的情况下,奖励并不能解释任何东西。AlphaZero 不是所有种类学习的模型,当然也不是通用智能的模型。
Silver 等人将一般智能视为一个定量问题。"通用智能,即人类和其他动物所拥有的那种智能,可以被定义为在不同背景下灵活地实现各种目标的能力。"
需要多大的灵活性?多大范围的目标?如果我们有一台电脑,可以交替地下围棋、跳棋和国际象棋,这仍然不构成通用智能。即使我们增加了另一种游戏,即象棋,我们仍然拥有完全相同的计算机,它仍然可以通过找到一个模型来工作,该模型“以棋盘位置 s 作为输入并输出移动概率向量”。计算机完全没有能力接受任何其他的 "想法" 或解决任何无法以这种特定方式表示的任何问题。
通用人工智能中的 "通用" 不是以它可以解决不同问题的数量为特征,而是以解决多种类型问题的能力为特征。一个通用智能代理必须能够自主地制定自己的表述,它必须创造自己的方法来解决问题,选择自己的目标、表征、方法等等。到目前为止,这都是人类设计师的职权范围,他们将问题简化为计算机可以通过调整模型参数解决的形式。除非我们能够消除对人类构建问题的依赖,否则我们无法实现通用智能。强化学习,作为一个选择性的过程,无法做到这一点。
正如行为主义和认知主义之间的对抗,以及反向传播是否足以学习语言学的过去式转换的问题一样,这些简单的学习机制只有在我们忽略了其他往往未被承认的限制因素所带来的沉重负担时才显得充分。奖励在可用的替代方案中进行选择,但它们无法创造这些替代物。只要我们不仔细观察这些现象,只要我们假设一定有某种奖励能强化某种行动,行为主义的奖励就能发挥作用。善于事后“解释”任何观察到的行为,但在实验室之外,它们无助于预测哪些行动即将发生。这些现象与奖励是一致的,但如果认为它们是由奖励引起的,那就错了。
Roitblat 在 Algorithms Are Not Enough: How to Create Artificial General Intelligence 一书中解释了为什么所有当前包括强化学习在内的人工智能算法,都需要仔细制定人类创建的问题和表示。他表示,一旦建立了模型及其内在表示,优化或强化就可以指导其进化,但这并不意味着强化就足够了。同样,Roitblat 补充说,该论文没有就如何定义强化学习的奖励、动作和其他元素提出任何建议。与 Silver 等人的说法相反,他认为奖励是不够的。
参考资料:
https://venturebeat.com/2021/07/10/building-artificial-intelligence-reward-is-not-enough/
https://www.sciencedirect.com/science/article/pii/S0004370221000862
https://mp.weixin.qq.com/s/5M1kuNp9z83yJkjKTE9m3g
评论