人工智能三大关键能力，终于有人讲明白了-轻识

导读：人类的智慧宽广而复杂。有些人类成就远远超出现今机器可达的领域，要想让机器触及这些领域，还需要一段漫长的时间。对于解决抽象问题、概念生成、情绪知识、创造力甚至是自我认知，即便是最强有力的深度学习算法，也无法在这些领域与人类智慧相提并论。

把所有这些认知能力融合到一台机器中，从而能够应对所有通用场景的人工智能称为通用人工智能。目前，通用人工智能还停留在理论阶段。

不过，当前的技术在执行特定类型任务方面取得了较大成功，这些任务过去都依赖于人类智力。我们称这类人工智能为狭义人工智能或弱人工智能。弱人工智能主要指三种能力：学习、感知和认知。

作者：大卫·卡尔莫纳（David Carmona）

来源：大数据DT（ID：hzdashuju）

▲AI能力备忘单

上图概述了本文介绍的AI的核心能力。

谈到AI的时候，客户们不停地在问：“这事儿成了吗？”在一个AI被过度炒作的世界，确实很难分清AI是幻想还是现实，是实际能力还是营销表演。

所有这些能力在今天都是真实存在的。今天的AI是真实的，成千上万的公司正在使用AI进行业务转型。关注AI未来的可能性固然重要，但是你更需要了解现在的AI能做些什么。

01 学习

▲学习——无显式编程的学习

机器学习的首要特征就是随时间学习的能力，并且不需要明确编程。和人类一样，机器学习算法通过探索与实践学习，而不是遵循一步步的指令（当然我知道有些读者是小孩子的父母，有时候你们可不希望孩子们这样）。

机器学习算法是按照学习方式分类的。当下最流行的、你的企业90%的时间可能都会采用的技术就是有监督学习。

有监督学习使用包含输入和期望输出的数据集。通过迭代优化，学习算法可以找到一个函数，对输入如何转化为输出进行建模。这个模型会被应用于训练集外的新的输入，并预测对应的输出。

找到正确的算法和参数，部分靠科学，部分靠创造力和直觉。如何将机器学习应用于这一过程本身就是个研究课题——这种技术称为自动化机器学习（AutoML）。

有监督学习算法都有相同的缺陷：它们需要大量数据。而且不是任何数据都行，它们需要同时包含输入和对应输出的训练数据，也称之为标记数据。

有时我们会有在记录系统或交互系统中存储的已经标记过的历史数据。例如，对于客户流失模型——我们可以查看流失客户的历史数据，加上客户的历史交互一起作为训练数据的输出部分。通过使用正确的算法，我们仅仅通过查看一系列的交互，就能够预测未来的客户流失情况。

然而有时我们不会如此幸运，数据并不会被标记。无监督学习算法会处理一组没有标记的数据并找出其中的结构。聚类算法是无监督学习算法中最流行的一种，它通过不同的技术，在数据中找到共性并对其分组。你可能使用这种算法对你的客户群或网页访问者进行客户细分。

其他常用的无监督学习算法有关联规则（定义数据间的关联，如购买某种特定产品的用户会对其他特定产品感兴趣）和异常检测（找出与主体数据不同的罕见或可疑部分数据）。

在其他情况下，我们完全不使用训练数据。想想人们如何学会玩一款视频游戏。解决这个问题的有监督方法就是观看成千上万的游戏视频并从中学习。这是许多Youtube播主的商业模式，我的孩子们就看这种视频，但我发现这种方式极度枯燥。

一个更有趣的学习方法是实际上手玩这个游戏。在玩的过程中，如果我们做对了（比如得分）就会得到正向强化，如果我们做错了（比如被杀死）就会得到负向强化。强化学习算法就是这么做的：它们通过探索环境并强化正确的行为来学习机器学习的功能。

强化学习由于其不需要数据的特性，成为商业上一种极其有前途的机器学习方式。它特别适合自动化系统——无论是移动的（如车辆、遥控飞机）还是静止的（如空调系统、电力系统）——同时也可以应用于复杂的业务流程。强化学习通常被认为是AI中最困难的学科。

02 感知

▲感知——解释周边世界

如果说有某个领域为人类所独有，那就是感知了。数十年来，我们尝试模仿人类的能力去感知周围的世界，却鲜有成功。理解一幅图画或将语音转文字的复杂度使其几乎无法用编程的方式实现——想象一下如何用一步步的指令来定义图片里的一匹马。

机器学习算法更适合解决这类问题。然而，传统机器学习算法在处理感知任务时的准确性与人类能做到的程度相去甚远（我仍然记得在Windows Vista上给开发们演示语音识别功能的情景……这件事教我学会要做个更坚强的人！）。

以图像分类为例。ImageNet是图像分类中最著名的挑战。自2010年起，全球的参与者提交他们的算法来创建最精准的模型。在竞赛初期（即2010年），能达到的较好的误差率约在25%左右。作为比较，同一数据集下人类对应的误差率约为5.1%。

到了2012年，Alex Krizhevsky（一位来自多伦多大学的学生）提交了他的方案：一个包含8层名为AlexNet的神经网络。AlexNet击败了其他竞争对手，达到了15.3%的误差率—比仅次于他的竞争者低了10个点。

在接下来的数年内，他引入的技术被持续改进并增加了更多层数，直到2014年，一个名为GoogLeNet的22层神经网络达到了6.7%的误差率。

次年，一个来自微软研究院的团队提交了使用全新神经网络技术的作品，其神经网络的深度达到了超大的152层，误差率仅为3.57%，首次超过了人类的表现。

深度学习永远地改变了计算机视觉。如今，这项技术实际上已经被用于计算机视觉的所有高精度场景，这使其成为企业中最常见的用例。以下是一些计算机视觉在当今的应用：

为图像的内容分类（影像分类）
识别一幅图像中的多个物体，并识别每个物体的边界（物体检测）
识别图像中的场景或行为（如：工作场所的不安全情形，或零售商店的补货）
检测人脸，识别身份，甚至辨识每张脸的情绪
识别书写文本，包含手写体文本（光学字符识别）
鉴别图像或视频里的攻击性行为

研究员Harold Stolovitch和Erica Keeps在他们的书Telling Ain’t Training（ASTD出版社）中断言，我们获取的信息中，有83%来自视觉，次之是听觉，提供了11%的感觉输入。两者合起来占据了我们从外界获取信息的94%。毫无疑问，音频处理是人工智能关注的另一个较大领域，仅次于计算机视觉。

相似的深度学习技术可以应用到音频信号上，帮助计算机识别声音。你可以利用这项能力区分鸟儿们的歌声，或通过风力涡轮机发出的声音来预测故障。

不过人工智能在音频处理方面最激动人心的还是语音识别。用于语音识别的参照数据集被称为总机，它包含了约260小时的电话交谈录音。测量后人类的转录误差率为5.9%。该误差率在2016年被微软研究院设计的神经网络追平，并于1年后被其以5.1%的误差率击败。有史以来第一次，一台机器可以比人类自身更好地理解人类。

这些突破不但让机器更懂我们，而且使得机器可以用自然的方式与我们沟通。2018年，Azure上线了基于深度学习开发的文字转语音服务，该服务能够合成出与真人无异的人声。

这些能力的结合将实现计算机科学的法宝：全自然用户接口（NUI）。机器既可以看见和理解人类，又可以用自然语言与人类交流，这看起来就像是我们已经实现了科幻电影的幻想一样。不过，我们真的做到了吗？要与计算机进行真正有意义的交流，计算机不但要能转录我们说的话，还要能理解话里的意思。

自然语言处理（NLP）是人工智能中从人类语言中分析、理解并提取含义的领域。NLP最常见的场景之一就是语言理解，语言理解是现代会话型人工智能体验（比如数字助理）的基础。

当你向Siri、Alexa或Cortana询问天气时，系统首先将你的会话音频转换成文字，然后通过自然语言理解模型抽取出你的意图，然后将意图（如“获取天气”）映射到对应输出（在这个例子中，就是提供当地的天气信息）。

NLP技术在过去几年中飞速发展。有些只能处理简单任务，比如情绪分析、关键字抽取或个体识别，有些则可以处理更复杂的任务，如文本归纳或翻译。2018年，微软的机器翻译团队首次在自动翻译方面达到人类水平——这是个极度复杂的任务，曾一度被认为是不可能实现的。

自然语言理解最激动人心的应用之一便是机器阅读理解。2018年1月，来自微软亚洲研究院的团队使用斯坦福问答数据集（SQuAD）达到了人类的水平，该数据集由针对一组维基百科文章的问题所组成。实际上，有关这些文章的开放性问题，系统能够给出比人类更好的答案。许多公司为之做出了贡献，帮助它走得更远。

尽管如此，这些系统仍然无法达到人类的抽象层次。在其核心，问答算法会搜索文本来寻找可以指向正确答案的线索。对于每个问题，系统都要搜索整个文本来匹配。人类也这么做（特别是当我们很匆忙时），但是当我们真正想理解一段文字时，我们会从中抽取知识，进行概括，并使其更易于理解。

想象一段描述加利福尼亚的文字。人类会从这段文字中归纳出“加利福尼亚”这个实体并给它赋予属性（如人口、面积），甚至与其他实体的关系（如邻州、地方长官）。归纳后，我们不再需要那段文字来回答关于加利福尼亚的问题。我们已经概括了有关的知识。

人工智能中与此过程对应的是知识抽取，其对企业有着深远的意义。通过使用这些技术，我们可以从混沌、无序，甚至令人困惑的信息中抽取高阶概念。结果知识图不但能用于回答关于整个数据产业的宽泛问题，还能浏览和理解这些信息。

这种水平的抽象远远超出了传统NLP的能力范围，使其更接近我们所说的认知。

03 认知

▲认知——基于数据进行推理

严格来说，认知是获取和处理知识的能力。它包含人脑用于推理、理解、解决问题、计划和决策的高层次概念。

我们目前探索的技术包含了一定程度的认知，虽然有时不那么明显。以图像分类为例，如果我们仔细审视用于图像分类的深度神经网络，实际上就可以看出神经网络是如何在每一层将问题分解成更小的步骤的。

没有人工干预，神经网络自动展示了某种程度的概括：第一层检测简单的特性，如边缘或纹理。往更深层走，每一层都能够抽取更复杂的属性，如图案或元素。某种意义上，神经网络已经可以获取一些知识并使用这些知识做一些基础推理。

自然语言处理展示了类似的内在抽象。在其核心，大部分现代的NLP技术都使用了被称为词嵌入的技术。通过词嵌入技术，文本中的每个词都转换为一个代表单词含义的向量。在这个新的空间，语义相似的词（如“天气”和“预报”）彼此接近。

通过这种方式，系统会将“今天天气如何？”和“获取未来24小时的预报”匹配为相同的意图。即使词不同，它们的含义却是相似的，因为它们的语义相近。翻译也是相同的工作原理：翻译技术使用词嵌入来抽象输入的文本，将其转换为与语言无关的“想法”，再用反向流程将其翻译为任意一种语言。

在这些例子中，认知是感知的内在。然而，许多人工智能场景是单纯的认知。它们不专注于感知周围的世界，而是专注于抽象这个世界并基于抽象进行推理。一些最基础的有监督学习方法便是如此。回归分析是根据现有信息预测数值的能力，例如基于房屋的特征和位置评估其价值，或根据历史数据预估其销售额。

分类是根据物品自身特征对其分级或分类的能力，例如，判断一栋房屋是不是会被出售给某个特定的买家。优化算法则是基于流程进行推论，从而最大化某个特定的结果，比如在医院里分配资源。

推荐系统仅通过评分或购买习惯就能够找出电影、书籍或歌曲等物品间不为人知的共性。其他技术，如前所述，如聚类分析能找出数据中的模式，并以无监督方式对物品归类。

我们在强化学习技术中也能看到认知能力。2017年，蒙特利尔微软研究院（前马鲁巴岛）跨越了100万分大关，创造了吃豆人游戏的新纪录。该系统通过玩成千上万把游戏来实现自我训练。

同样地，在2018年，OpenAI Five（一个由五个神经网络组成的团队）在Dota2游戏中打败了人类队伍。OpenAI Five通过自我对战进行训练，每天的训练量相当于180年游戏时长。

最著名的例子应该是由Google DeepMind取得的成就：其系统AlphaGo第一次击败了一位9段围棋专业选手。相对于其他游戏（如象棋），围棋被认为是对电脑来说更为困难的游戏。

深入观察所有AI系统参与的游戏，你会觉得它们展现出了认知的另外一种特征——计划。系统能够提前“思考”最佳的方式来获得长期看来最大化的分数。

关于作者：大卫·卡尔莫纳（David Carmona）负责领导微软AI的整体市场，并负责公司和开发者层面的AI产品、服务及创新的整体战略，在技术行业拥有20多年的经验。他在15年前加入微软，在国际上和雷德蒙德（微软总部）担任过各种技术和商业领导职务。

本文摘编自《AI重新定义企业—从微软等真实案例中学习》，经出版方授权发布。