斯坦福AI抄袭清华,作者“失联跑路”

Python涨薪研究所

共 4364字,需浏览 9分钟

 ·

2024-06-04 22:01

👆扫码免费申请开发板👆


斯坦福AI团队主导的 Llama3-V 开源模型被证实套壳抄袭国内清华&面壁智能的开源模型“小钢炮”MiniCPM-Llama3-V 2.5一事,在网络和媒体上引发热议。

近日,斯坦福AI团队主导的 Llama3-V 开源模型被证实套壳抄袭国内清华&面壁智能的开源模型“小钢炮”MiniCPM-Llama3-V 2.5一事,在网络和媒体上引发热议。

被网友质疑抄袭,面壁智能团队进一步验证

事件起源于5月29日,一个斯坦福AI 团队在网络上高调宣传,只需500美元就可训练出一个超越GPT-4V 的 SOTA 多模态大模型。该模型发布的推特帖子浏览量很快就超过了30万,转发300+次,并迅速冲到了 Hugging Face 首页。

随后,推特与 Hugging Face 上就开始出现怀疑的声音,网友质疑 Llama3V 套壳了面壁智能在5月中旬发布的8B 多模态小模型 MiniCPM-Llama3-V 2.5,且没有在 Llama3V 的工作中表达任何“致敬”或“感谢”MiniCPM-Llama3-V 2.5 的声音。对此,Llama3V 团队回复称他们“只是使用了 MiniCPM-Llama3-V 2.5 的 tokenizer”,并宣称“在 MiniCPM-Llama3-V 2.5 发布前就开始了这项工作”。

之后,有网友在 Llama3V 的 Github 项目下抛出事实性质疑,但很快被 Llama3V 的团队删除。为此,提出质疑的网友跑到了 MiniCPM-V 的 Github 页面进行事件还原,提醒面壁智能团队关注此事。


随着事件逐渐发酵,面壁智能团队也就此事展开了调查。

面壁智能首席科学家、清华大学长聘副教授刘知远给出的判断Llama3-V是MiniCPM-Llama3-V 2.5套壳。


而实锤Llama3-V 开源模型抄袭MiniCPM-Llama3-V 2.5的最有力证据,正是对于清华简的识别能力。


据称,这是MiniCPM-Llama3-V 2.5的“彩蛋”能力,是他们用了从清华简逐字扫描并标注的数据集训练的,并未公开。而Llama3-V的表现和MiniCPM-Llama3-V 2.5一模一样,不仅做对的题一样,出错的地方都一样。

此外,有网友研究后发现,Llama3-V几乎每一层的权重差值都符合均值为0、标准差为1.4e-3的高斯分布。


于是推测,Llama3-V只是直接在MiniCPM的权重上添加了低方差噪声。

斯坦福Llama3-V团队道歉,作者“失联跑路”

今早北京时间凌晨1点27分,斯坦福Llama3-V团队的两位作者Siddharth Sharma和 Aksh Garg在社交平台上就这一学术不端行为向面壁MiniCPM团队正式道歉,并表示会将Llama3-V模型悉数撤下。


Aksh Garg表示,“首先,我们要向MiniCPM原作者道歉。我、Siddharth Sharma,以及Mustafa一起发布了Llama3-V,Mustafa为这个项目编写了代码,但从昨天起就无法联系他。我与Siddharth Sharma主要负责帮助Mustafa进行模型推广。我们俩查看了最新的论文,以验证这项工作的新颖性,但并未被告知或意识到OpenBMB(清华团队支持发起的大规模预训练语言模型库与相关工具)之前的任何工作。我们向作者道歉,并对自己没有努力验证这项工作的原创性感到失望。我们对所发生的事情承担全部责任,并已撤下Llama3-V,再次致歉。”

而被指“失联”的Mustafa X主页目前已经开启保护锁定状态,申请才能关注。


另外,斯坦福人工智能实验室主任Christopher David Manning也发文谴责这一抄袭行为,并对MiniCPM这一中国开源模型表示赞扬。


从nobody悄然成长为关键推动者

MiniCPM-Llama3-V 2.5是由面壁智能和清华大学自然语言处理实验室联合推出的, 它具有以下特点:

8B 参数量:这个模型拥有8亿参数,这使得它在处理复杂任务时表现出色。
多模态能力:MiniCPM-Llama3-V 2.5 能够接受图像和文本输入,并提供高质量的文本输出。
OCR 能力:模型增强了光学字符识别(OCR)能力,能够接受高达180万像素的任意宽高比图像输入,并在OCRBench上得分达到725,超越了其他商用闭源模型。
多语言支持:支持30多种语言,包括英语、中文、法语、西班牙语、德语等,展现出良好的多语言多模态对话性能。
高效部署:通过模型量化、CPU、NPU、编译优化等高效加速技术,实现了高效的终端设备部署。它在多模态大模型评测基准的OpenCompass榜单上平均得分65.1,超过了GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max等主流商用闭源多模态大模型。

尽管中国在AI大模型的研发上起步稍晚,但其发展速度却异常迅猛。目前,国内涌现出了一批知名的AI大模型企业,它们分别是通义千问、Yi、OpenBMB 、DeepSeek、Yuan、WizardLM、ChatGLM、CogVLM、Baichuan、InternLM、Skywork、HunyunDiT等等,这些企业都在各自的领域取得了显著的成就。

在视觉大模型的竞赛中,零一万物的Yi-VL-Plus模型脱颖而出,以优异的成绩位列第五,甚至超越了谷歌的Gemini Pro Vision。同时,智谱AI与清华合作的CogVLM也成功跻身前十,充分展示了中国在视觉AI领域的强大实力。

而在更具权威性的LMSYS Chatbot Arena Leaderboard竞技场榜单中,中国的大模型也在不断刷新“最强开源”的纪录,这进一步证明了中国在AI大模型技术领域的领先地位。

值得一提的是,中国的大模型不仅在技术上取得了突破,更在实际应用中展现出了强大的通用性和跨领域能力。例如,上海人工智能实验室研发的书生浦语开源大模型,凭借其70亿参数的轻量级版本和200亿参数的中量级版本,在多个领域都表现出了卓越的性能,这为中国在AI大模型的应用落地方面树立了新的标杆。

此外,中国在算力方面也具备坚实的基础。尽管与美国相比,中国现有的算力总规模仍有一定差距,但在以GPU和NPU为主的智能算力规模上,中国已经明显超越美国。这一优势为中国大模型的训练提供了强有力的支持,使得中国在AI大模型领域的发展更加迅速。

刘知远也表示,从横向来看,我们显然仍与国际顶尖工作如Sora和GPT-4o有显著差距;同时,从纵向来看,我们已经从十几年前的nobody,快速成长为人工智能科技创新的关键推动者。

面壁智能:知错能改,善莫大焉

面壁智能CEO李大海表示,“我们对这件事深表遗憾。一方面感慨这也是一种受到国际团队认可的方式,另一方面呼吁大家共建开放、合作、有信任的社区环境。”“我们希望团队的好工作被更多人关注与认可,但不是以这种方式。”

面壁智能首席科学家、清华大学长聘副教授刘知远表示,人工智能的飞速发展离不开全球算法、数据与模型的开源共享,让人们始终可以站在SOTA的肩上持续前进。面壁开源的MiniCPM-Llama3-V 2.5 就用了最新的Llama3作为语言模型基座。而开源共享的基石是对开源协议的遵守,对其他贡献者的信任,对前人成果的尊重和致敬,Llama3-V团队无疑严重破坏了这一点。他们在受到质疑后已在Huggingface删库,该团队三人中的两位也只是斯坦福大学本科生,未来还有很长的路,如果知错能改,善莫大焉。

北京面壁智能科技有限责任公司成立于2022年8月,今年4月,面壁智能完成新一轮数亿元融资,由华为哈勃领投,春华创投、北京市人工智能产业投资基金等跟投,知乎作为战略股东持续跟投支持。今年2月,面壁智能发布开源模型MiniCPM后,又推出MiniCPM 2系列端侧模型。李大海表示,推动大模型在端侧的落地是面壁目前的重点工作之一。



热点文章推荐

浏览 282
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报