比Transformer好用！前谷歌大脑员工创业公司获4000万美元融资，Hinton、李飞飞等支持-轻识

新智元报道

来源：网络

编辑：David

【新智元导读】NLP模型提供商Cohere宣布获得4000万美元A轮融资。该公司由谷歌大脑前员工创立，核心模型源自Transformer，并获得了Geoffrey Hinton，李飞飞等AI界重量人物的支持。

近日，自然语言处理 (NLP) 预训练模型提供商 Cohere 宣布了 4000 万美元的 A 轮融资。此次融资由 Index Ventures 领投，Section 32、Radical Ventures等参投。Index 合伙人 Mike Volpi 加入 Cohere 董事会。

Cohere在业界源自名门，其核心NLP模型正是源自Google Brain开发的Transformer，它可以理解、比较和生成复杂的文本，并不断改进训练数据。

Cohere的主要服务是提供预训练模型，模型已经过数亿份网页的阅读训练，能理解我们使用的词语的含义、情感和语气。用户无需超算基础设施，也不需要AI专业知识，就能通过API实现最先进的NLP 功能。

此外，Cohere还获得了多位人工智能界的重量级人物的支持，包括AI先驱人物、图灵奖获得者 Geoffrey Hinton，以及李飞飞、Pieter Abbeel 和 Raquel Urtasun 等。

Hinton就此表示了支持，他表示：“超大语言模型让计算机能够更好地理解人类交流， Cohere 的团队正在构建的技术，将使自然语言理解的这场革命获得更加广泛地应用。”

Cohere由两位前 Google Brain 研究人员Aidan Gomez 和 Nick Frosst和前Cortex工程师Ivan Zhang创立，其使命是制造能够“理解世界”的机器，并让所有人都能安全地获取这种服务。

源自Transformer：尖端NLP模型，拿来即用，安全方便

Cohere 现任CEO Gomez认为，Transformer 模型的问题之一，就是需要大量的训练数据和算力。

“没有人可以方便访问这些高质量的自然语言模型；即使是Facebook、亚马逊、苹果、Netflix 和谷歌等科技巨头也不行。我们想要做的是，支付这台超级计算机的成本，并让所有人都可以访问，否则这些技术就得不到真正利用。”

Gomez表示，在架构层面，这些模型的设计不仅可以收集单个单词的含义，还可以收集这个单词在其他单词的上下文中的含义。

在Transformer架构的基础上，性能更强大的BERT诞生了，它可以用于理解几乎所有 Google 搜索功能中的查询结果。

BERT的模式是，首先通过处理来自网络的大量文本来训练 Transformer 模型，然后输入完整的句子，但故意省略一些单词，然后让模型找到最合适的单词来填空。

“这种模型真正学会了理解语言，因为需要学习在上下文中理解适合该句子的内容。”在找词填空时，模型必须学会区分大量候选词之间的细微差别。在此过程中，模型学习了大量关于候选词及其所代表的事物和想法的有关知识。

Gomez 说：“在另一端，BERT对单词含义和特征的编码表示形式是非常丰富的，因为模型的全部目的就是要预测这些空白，这真的需要了解这些候选词到底是什么。”

GPT-3是“作文机器”，Cohere是“全能机器”

而与另一个广受欢迎的NLP模型GPT-3相比，Cohere也有一些相似之处，GPT-3在去年发布时凭借其显示出了令人惊叹的文本生成能力。该模型由OpenAI 开发，两者都使用来自网络的大量文本进行了预训练，并且都通过 API形式提供。

而据Gomez介绍，二者之间的主要不同在于，GPT-3 是一种“生成”模型，旨在根据用户提供的提示，创建出从左到右移动的文本——类似于一台强大的自动写作机器。但其实，文本生成只是NLP的众多应用方向之一，Cohere 提供的是一个类似“全栈”NLP功能的平台，包括情感分类、问答和文本分类等。

如何防止NLP模型“学坏”

去年，大型 NLP 模型的批评者对网络上的大量文本进行了训练，结果发现模型在学习中学会了训练数据中的人或观点的固有偏见，随后引发了大量争议。

Gomez并不回避这个问题，他坦言，训练模型确实可能会学会不该学的东西。除了会吸收互联网文本中的固有偏见之外，还可能吸收不经意间包含在训练数据中的错误信息。

为此，Cohere开发了新工具，并投入大量时间来确保模型不会摄取到这些不良数据。Cohere在模型发布前会实施质量控制测试，查找问题，在模型发布后也会继续监控。此外还将发布“数据声明”，内容包括有关训练数据、其局限性和任何风险的信息。

目前，李飞飞领导下的斯坦福大学的一个新团队已经成立，主要就是研究与 BERT 和 GPT-3 等“基础”技术相关的风险。

参考链接：

https://financialpost.com/globe-newswire/cohere-raises-40-million-in-series-a-financing-to-make-natural-language-processing-safe-and-accessible-to-any-business-led-by-index-ventures-other-investors-include-section-32-ai-focused-radical-ve

https://www.fastcompany.com/90670635/ex-googlers-raise-40-million-to-democratize-natural-language-ai