『面壁智能』低调开源「理科状元」Eurux-8x22B,推理性能超越 Llama3-70B

共 2052字,需浏览 5分钟

 ·

2024-05-09 07:00

两周前,早在 Llama3 发布的前两天,『面壁智能』低调开源了大模型 Eurux-8x22B,包括 Eurux-8x22B-NCAEurux-8x22B-KTO。该模型主打更强大的推理性能——刷新开源大模型推理性能 SOTA,堪称开源大模型中「理科状元」

除了开源时间早于 Llama3,Eurux-8x22B 的激活参数仅有 39B,推理速度更快,目前支持 64K 上下文,相比之下 Llama3-70B 的上下文大小为 8K。

图注:面壁Eurux-8x22B 模型在 LeetCode 和 TheoremQA这两个具有挑战性的基准测试中,刷新开源大模型推理性能 SOTA。

此外,Eurux-8x22B 由 Mistral-8x22B 对齐而来,在 UltraInteract 大规模、高质量对齐数据集上训练而成,综合性能不输 Llama3-70B。

相比而言,Llama3-70B 模型则是使用了千万量级的对齐数据,这从侧面证明了 UltraInteract 数据集的优质性——数据质量胜过数据数量


UltraInteract

UltraInteract 是一个专门用于提升大模型推理能力的大规模、高质量对齐数据集,包含了涵盖数学、代码和逻辑推理问题的 12 个开源数据集的 86K 条指令和 220K 偏好对,总共有五十万条左右数据可供使用。

UltraInteract 采用了树状结构(tree-structured)来组织数据,这种结构有助于模型学习如何通过多轮交互来优化其推理过程。如下图所示:

图注:UltraInteract(第三列)是当前唯一一个树状结构的对齐数据集

具体来说,UltraInteract 数据集主要有以下三个特点:多样高质量数据,多轮交互(如下图所示),偏好学习

图注:UltraInteract 两轮交互的过程

UltraInteract 对齐数据集地址: https://github.com/OpenBMB/Eurus

图注:面壁Eurux-8x22B 模型综合性能比肩 Llama3-70B,超越开源模型 WizardLM-2-8x22b,Mistral-8x22b-Instruct,DeepSeek-67b,以及闭源模型 GPT-3.5-turbo。

目前,Eurux-8x22B 模型和对齐数据,全家桶开源:
https://github.com/OpenBMB/Eurus
https://huggingface.co/openbmb/Eurux-8x22b-nca

根据测评,Eurux-8x22B 代码和数学等复杂推理的综合性能方面刷新开源大模型 SOTA

在官方测试中,Eurux-8x22B 在 LeetCode(包含180道编程真题)和 TheoremQA(美国大学水准的STEM题目)两项测试上超过了 Llama3-70B,并且在 LeetCode 测试中超越了闭源的GPT-3.5-Turbo

既然 Eurux-8x22B 主打推理能力,那在实际应用中表现如何呢?

面壁智能 Eurux-8x22B 参加了近期的一场 LeetCode 周赛,结果显示:Eurux-8x22B 的 Python 编程能力非常优秀,成功解决了四道算法题中的三道,其综合排名超越了 80% 的人类参赛选手,可以初步通过互联网大厂的程序员编程面试。

下面是本次周赛中 Eurux-8x22B 对一道中等难度的算法题的真实解答:

除了代码题做的不错,Eurux-8x22B 解答数学题也不在话下。

Eurux-8x22B 解答高考函数题,也能做到准确无误。



参考:

https://mp.weixin.qq.com/s/BAeFq-jXuyXiGMF7MMy5qw

浏览 11
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报