斯坦福AI抄袭清华,作者“失联跑路”Python涨薪研究所共 4364字,需浏览 9分钟 ·2024-06-04 22:01 👆扫码免费申请开发板👆 斯坦福AI团队主导的 Llama3-V 开源模型被证实套壳抄袭国内清华&面壁智能的开源模型“小钢炮”MiniCPM-Llama3-V 2.5一事,在网络和媒体上引发热议。 近日,斯坦福AI团队主导的 Llama3-V 开源模型被证实套壳抄袭国内清华&面壁智能的开源模型“小钢炮”MiniCPM-Llama3-V 2.5一事,在网络和媒体上引发热议。 被网友质疑抄袭,面壁智能团队进一步验证 事件起源于5月29日,一个斯坦福AI 团队在网络上高调宣传,只需500美元就可训练出一个超越GPT-4V 的 SOTA 多模态大模型。该模型发布的推特帖子浏览量很快就超过了30万,转发300+次,并迅速冲到了 Hugging Face 首页。 随后,推特与 Hugging Face 上就开始出现怀疑的声音,网友质疑 Llama3V 套壳了面壁智能在5月中旬发布的8B 多模态小模型 MiniCPM-Llama3-V 2.5,且没有在 Llama3V 的工作中表达任何“致敬”或“感谢”MiniCPM-Llama3-V 2.5 的声音。对此,Llama3V 团队回复称他们“只是使用了 MiniCPM-Llama3-V 2.5 的 tokenizer”,并宣称“在 MiniCPM-Llama3-V 2.5 发布前就开始了这项工作”。 之后,有网友在 Llama3V 的 Github 项目下抛出事实性质疑,但很快被 Llama3V 的团队删除。为此,提出质疑的网友跑到了 MiniCPM-V 的 Github 页面进行事件还原,提醒面壁智能团队关注此事。 随着事件逐渐发酵,面壁智能团队也就此事展开了调查。 面壁智能首席科学家、清华大学长聘副教授刘知远给出的判断Llama3-V是MiniCPM-Llama3-V 2.5套壳。 而实锤Llama3-V 开源模型抄袭MiniCPM-Llama3-V 2.5的最有力证据,正是对于清华简的识别能力。 据称,这是MiniCPM-Llama3-V 2.5的“彩蛋”能力,是他们用了从清华简逐字扫描并标注的数据集训练的,并未公开。而Llama3-V的表现和MiniCPM-Llama3-V 2.5一模一样,不仅做对的题一样,出错的地方都一样。 此外,有网友研究后发现,Llama3-V几乎每一层的权重差值都符合均值为0、标准差为1.4e-3的高斯分布。 于是推测,Llama3-V只是直接在MiniCPM的权重上添加了低方差噪声。 斯坦福Llama3-V团队道歉,作者“失联跑路” 今早北京时间凌晨1点27分,斯坦福Llama3-V团队的两位作者Siddharth Sharma和 Aksh Garg在社交平台上就这一学术不端行为向面壁MiniCPM团队正式道歉,并表示会将Llama3-V模型悉数撤下。 Aksh Garg表示,“首先,我们要向MiniCPM原作者道歉。我、Siddharth Sharma,以及Mustafa一起发布了Llama3-V,Mustafa为这个项目编写了代码,但从昨天起就无法联系他。我与Siddharth Sharma主要负责帮助Mustafa进行模型推广。我们俩查看了最新的论文,以验证这项工作的新颖性,但并未被告知或意识到OpenBMB(清华团队支持发起的大规模预训练语言模型库与相关工具)之前的任何工作。我们向作者道歉,并对自己没有努力验证这项工作的原创性感到失望。我们对所发生的事情承担全部责任,并已撤下Llama3-V,再次致歉。” 而被指“失联”的Mustafa X主页目前已经开启保护锁定状态,申请才能关注。 另外,斯坦福人工智能实验室主任Christopher David Manning也发文谴责这一抄袭行为,并对MiniCPM这一中国开源模型表示赞扬。 从nobody悄然成长为关键推动者 MiniCPM-Llama3-V 2.5是由面壁智能和清华大学自然语言处理实验室联合推出的, 它具有以下特点: 8B 参数量:这个模型拥有8亿参数,这使得它在处理复杂任务时表现出色。 多模态能力:MiniCPM-Llama3-V 2.5 能够接受图像和文本输入,并提供高质量的文本输出。 OCR 能力:模型增强了光学字符识别(OCR)能力,能够接受高达180万像素的任意宽高比图像输入,并在OCRBench上得分达到725,超越了其他商用闭源模型。 多语言支持:支持30多种语言,包括英语、中文、法语、西班牙语、德语等,展现出良好的多语言多模态对话性能。 高效部署:通过模型量化、CPU、NPU、编译优化等高效加速技术,实现了高效的终端设备部署。它在多模态大模型评测基准的OpenCompass榜单上平均得分65.1,超过了GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max等主流商用闭源多模态大模型。 尽管中国在AI大模型的研发上起步稍晚,但其发展速度却异常迅猛。目前,国内涌现出了一批知名的AI大模型企业,它们分别是通义千问、Yi、OpenBMB 、DeepSeek、Yuan、WizardLM、ChatGLM、CogVLM、Baichuan、InternLM、Skywork、HunyunDiT等等,这些企业都在各自的领域取得了显著的成就。 在视觉大模型的竞赛中,零一万物的Yi-VL-Plus模型脱颖而出,以优异的成绩位列第五,甚至超越了谷歌的Gemini Pro Vision。同时,智谱AI与清华合作的CogVLM也成功跻身前十,充分展示了中国在视觉AI领域的强大实力。 而在更具权威性的LMSYS Chatbot Arena Leaderboard竞技场榜单中,中国的大模型也在不断刷新“最强开源”的纪录,这进一步证明了中国在AI大模型技术领域的领先地位。 值得一提的是,中国的大模型不仅在技术上取得了突破,更在实际应用中展现出了强大的通用性和跨领域能力。例如,上海人工智能实验室研发的书生浦语开源大模型,凭借其70亿参数的轻量级版本和200亿参数的中量级版本,在多个领域都表现出了卓越的性能,这为中国在AI大模型的应用落地方面树立了新的标杆。 此外,中国在算力方面也具备坚实的基础。尽管与美国相比,中国现有的算力总规模仍有一定差距,但在以GPU和NPU为主的智能算力规模上,中国已经明显超越美国。这一优势为中国大模型的训练提供了强有力的支持,使得中国在AI大模型领域的发展更加迅速。 刘知远也表示,从横向来看,我们显然仍与国际顶尖工作如Sora和GPT-4o有显著差距;同时,从纵向来看,我们已经从十几年前的nobody,快速成长为人工智能科技创新的关键推动者。 面壁智能:知错能改,善莫大焉 面壁智能CEO李大海表示,“我们对这件事深表遗憾。一方面感慨这也是一种受到国际团队认可的方式,另一方面呼吁大家共建开放、合作、有信任的社区环境。”“我们希望团队的好工作被更多人关注与认可,但不是以这种方式。” 面壁智能首席科学家、清华大学长聘副教授刘知远表示,人工智能的飞速发展离不开全球算法、数据与模型的开源共享,让人们始终可以站在SOTA的肩上持续前进。面壁开源的MiniCPM-Llama3-V 2.5 就用了最新的Llama3作为语言模型基座。而开源共享的基石是对开源协议的遵守,对其他贡献者的信任,对前人成果的尊重和致敬,Llama3-V团队无疑严重破坏了这一点。他们在受到质疑后已在Huggingface删库,该团队三人中的两位也只是斯坦福大学本科生,未来还有很长的路,如果知错能改,善莫大焉。 北京面壁智能科技有限责任公司成立于2022年8月,今年4月,面壁智能完成新一轮数亿元融资,由华为哈勃领投,春华创投、北京市人工智能产业投资基金等跟投,知乎作为战略股东持续跟投支持。今年2月,面壁智能发布开源模型MiniCPM后,又推出MiniCPM 2系列端侧模型。李大海表示,推动大模型在端侧的落地是面壁目前的重点工作之一。 热点文章推荐 鸟枪换炮,一百块钱的刷锡膏方案,用了几年终于被淘汰了 这些变压器的冷知识,你知道吗? 欧洲65%进口PCB来自中国 电路这么学,一看就懂!动图解析模电数电 万变不离其宗:蓝牙开发心得! 浏览 289点赞 评论 收藏 分享 手机扫一扫分享分享 举报 评论图片表情视频评价全部评论推荐 大瓜!斯坦福团队抄袭清华系大模型事件,已经删库跑路!菜鸟学Python0失联失联0Clash作者删库跑路!Python网络爬虫与数据挖掘0失联日志失联日志0渐渐失联渐渐失联0回忆失联回忆失联0失联 (2017)失联 (2017)0失联的风失联的风0人海里失联人海里失联0渐渐失联 (伴奏)渐渐失联 (伴奏)0点赞 评论 收藏 分享 手机扫一扫分享分享 举报