人工智能，「抛弃」真实数据集？-轻识

新智元报道

来源：学术头条

【新智元导读】生成模型能生成高度逼真的图像，而且看起来与训练时采用的数据几乎毫无区别。这就提出了一个问题：如果有足够好的生成模型，我们还需要数据集吗？

当前，人工智能技术已经应用在我们日常生活中的方方面面，比如人脸识别、语音识别、虚拟数字人等。

但普遍存在的一个问题是，科研人员要想通过训练一个机器学习模型来执行某一特定任务（比如图像分类），往往需要使用大量的训练数据，而这些数据（集）却并不总是很容易获得。

比如，如果研究人员正在训练一辆自动驾驶汽车的计算机视觉模型，但真实数据可能不会包含一个人和他的一条狗在高速公路上奔跑的样本，一旦遇到这种情况，模型就不知道该如何做，可能会产生不必要的后果。

而且，使用已有数据生成数据集，也会花费数百万美元。

另外，即使是最好的数据集，也常常包含对模型性能产生负面影响的偏见。

那么，既然获得、使用一个数据集代价这么昂贵，能不能在保证模型性能的前提下，使用人为合成的数据来训练呢？

近日，一项来自麻省理工学院（MIT）科研团队的研究显示，一种使用合成数据训练的图像分类机器学习模型，可以与使用真实数据来训练的模型相媲美，甚至性能更好。

相关研究论文以「Generative models as a data source for multiview representation learning」为题，以会议论文的形式发表在 ICLR 2022 上。

论文链接：https://arxiv.org/abs/2106.05258

不输于真实数据

这种特殊的机器学习模型被称为生成模型（generative model），相比于数据集，存储或共享所需的内存要少得多，不仅可以避免一些关于隐私和使用权的问题，也不存在传统数据集中存在的一些偏见和种族或性别问题。

据论文描述，在训练过程中，生成模型首先会获取数百万张包含特定对象（比如汽车或猫咪）的图像，然后学习汽车或猫咪的外观，最后生成类似的对象。

简单来说就是，研究人员使用一个预先训练的生成模型，参照模型训练数据集上的图像，输出大量独特的、真实的图像流。

（来源：Pixabay）

研究人员表示，一旦生成模型在真实数据上进行训练，就可以生成几乎与真实数据无法区分的合成数据。

另外，生成模型还可以基于训练数据做进一步拓展。

如果生成模型是基于汽车图像进行训练的，它就可以「想象」出汽车在不同情况下是什么样的，然后输出具有不同颜色、大小和状态的汽车图像。

生成模型具备很多优点，其中之一便是，它在理论上可以创建无限数量的样本。

基于此，研究人员试图搞清楚样本数量如何影响模型性能。结果显示，在某些情况下，大量的独特样本确实会带来额外的改进。

而且，在他们看来，生成模式最酷的一点在于，我们可以在在线资料库中找到并使用它们，而且不需要干预模型就可以获得良好的表现。

但生成模型也有一些缺点。例如，在某些情况下，生成模型可能会揭示源数据，从而带来隐私风险，如果没有进行适当的审计，可能会放大它们所训练数据集中的偏差。

生成式 AI 大势所趋？

有效数据的稀缺性，以及采样偏差，已经成为机器学习发展的关键瓶颈。

近年来，为解决这一问题，生成式 AI（Generative AI）成为了人工智能领域的热议话题之一，被业内给予了足够高的期待。

去年底，Gartner 发布了 2022 年重要战略技术趋势，将生成式 AI 称为是「最引人注目和最强大的人工智能技术之一」。

据 Gartner 预测，预计到 2025 年，生成式 AI 将占所有生成数据的 10%，而目前这一比例还不到 1%。

图｜2022 年重要战略技术趋势（来源：Gartner）

2020 年，生成式 AI 作为一个新增技术热点，在 Gartner 发布的「Hype Cycle for Artificial Intelligence，2020」中首次被提出。

在最新的「Hype Cycle for Artificial Intelligence，2021」报告中，生成式 AI 作为 2-5 年即可成熟的技术出现。

图｜Hype Cycle for Artificial Intelligence, 2021（来源：Gartner）

生成式 AI 的突破在于，它可以从现有数据（图像、文本等）中学习，并生成全新、相似的原始数据。也就是说，它不仅可以做出判断，还能够进行创造，可以用于自动编程、药物开发、视觉艺术、社交、商业服务等。

但是，生成式 AI 也会被滥用于诈骗、欺诈、政治造谣、伪造身份等，比如经常产生各种负面新闻的 Deepfake。

那么问题来了，如果我们有足够好的生成模型，还需要真实的数据集吗？

参考资料：

https://arxiv.org/abs/2106.05258