人工智能,「抛弃」真实数据集?
新智元
共 1976字,需浏览 4分钟
·
2022-04-11 08:10
新智元报道
新智元报道
来源:学术头条
【新智元导读】生成模型能生成高度逼真的图像,而且看起来与训练时采用的数据几乎毫无区别。这就提出了一个问题:如果有足够好的生成模型,我们还需要数据集吗?
但普遍存在的一个问题是,科研人员要想通过训练一个机器学习模型来执行某一特定任务(比如图像分类),往往需要使用大量的训练数据,而这些数据(集)却并不总是很容易获得。
比如,如果研究人员正在训练一辆自动驾驶汽车的计算机视觉模型,但真实数据可能不会包含一个人和他的一条狗在高速公路上奔跑的样本,一旦遇到这种情况,模型就不知道该如何做,可能会产生不必要的后果。
而且,使用已有数据生成数据集,也会花费数百万美元。
另外,即使是最好的数据集,也常常包含对模型性能产生负面影响的偏见。
那么,既然获得、使用一个数据集代价这么昂贵,能不能在保证模型性能的前提下,使用人为合成的数据来训练呢?
近日,一项来自麻省理工学院(MIT)科研团队的研究显示,一种使用合成数据训练的图像分类机器学习模型,可以与使用真实数据来训练的模型相媲美,甚至性能更好。
相关研究论文以「Generative models as a data source for multiview representation learning」为题,以会议论文的形式发表在 ICLR 2022 上。
论文链接:https://arxiv.org/abs/2106.05258
不输于真实数据
据论文描述,在训练过程中,生成模型首先会获取数百万张包含特定对象(比如汽车或猫咪)的图像,然后学习汽车或猫咪的外观,最后生成类似的对象。
简单来说就是,研究人员使用一个预先训练的生成模型,参照模型训练数据集上的图像,输出大量独特的、真实的图像流。
另外,生成模型还可以基于训练数据做进一步拓展。
如果生成模型是基于汽车图像进行训练的,它就可以「想象」出汽车在不同情况下是什么样的,然后输出具有不同颜色、大小和状态的汽车图像。
生成模型具备很多优点,其中之一便是,它在理论上可以创建无限数量的样本。
基于此,研究人员试图搞清楚样本数量如何影响模型性能。结果显示,在某些情况下,大量的独特样本确实会带来额外的改进。
而且,在他们看来,生成模式最酷的一点在于,我们可以在在线资料库中找到并使用它们,而且不需要干预模型就可以获得良好的表现。
但生成模型也有一些缺点。例如,在某些情况下,生成模型可能会揭示源数据,从而带来隐私风险,如果没有进行适当的审计,可能会放大它们所训练数据集中的偏差。
生成式 AI 大势所趋?
近年来,为解决这一问题,生成式 AI(Generative AI)成为了人工智能领域的热议话题之一,被业内给予了足够高的期待。
去年底,Gartner 发布了 2022 年重要战略技术趋势,将生成式 AI 称为是「最引人注目和最强大的人工智能技术之一」。
据 Gartner 预测,预计到 2025 年,生成式 AI 将占所有生成数据的 10%,而目前这一比例还不到 1%。
在最新的「Hype Cycle for Artificial Intelligence,2021」报告中,生成式 AI 作为 2-5 年即可成熟的技术出现。
但是,生成式 AI 也会被滥用于诈骗、欺诈、政治造谣、伪造身份等,比如经常产生各种负面新闻的 Deepfake。
那么问题来了,如果我们有足够好的生成模型,还需要真实的数据集吗?
参考资料:
https://arxiv.org/abs/2106.05258
评论