最新开源：智源BGE登顶Hugging Face月度榜！北大&快手开源Pyramid Flow！Rhymes AI开源Aria！-轻识

NO.1

国产AI模型登顶全球TOP 1！智源BGE下载破亿成Hugging Face月榜冠军

近日，Hugging Face更新了月度榜单，智源研究院的 BGE 模型登顶榜首，这是中国国产AI模型首次成为Hugging Face月榜冠军。BGE 在短短一年时间内，总下载量已超数亿次，是目前下载量最多的国产AI系列模型。

BGE，全称BAAI General Embedding，是北京智源人工智能研究院研发的开源通用向量模型，该系列模型专为各类信息检索及大语言模型检索增强应用而打造。

自2023年8月发布首款模型 BGE v1，历经数次迭代，BGE 已发展为全面支持“多场景”、“多语言”、“多功能”、“多模态”的技术生态体系。

BGE 不仅性能综合卓越，多次大幅刷新 BEIR、MTEB、C-MTEB 等领域内主流评测榜单，而且始终秉持彻底的开源开放的精神，“模型、代码、数据” 向社区完全公开。BGE 在开源社区广受欢迎，许多 RAG 开发者将其比作信息检索的“瑞士军刀”。

NO.2

北大&快手开源视频生成模型Pyramid Flow，1分钟生成5秒视频

10月11日，北京大学、北京邮电大学和快手科技联合开源了一款名为Pyramid Flow的高清视频生成模型。用户在输入文本之后，即可生成最长 10 秒、分辨率高达 1280x768、帧率 24fps 的高质量视频。

Pyramid Flow 的核心特点如下：

高效生成：Pyramid Flow 采用新技术，通过统一 AI 模型分阶段生成视频，大多数阶段为低分辨率，只有最后阶段为全分辨率。这种“金字塔流匹配”方法保持了视频的高视觉质量前提下，大幅降低了计算成本，tokens 数量是传统 diffusion 模型的四分之一。

图：金字塔流匹配算法：视频的生成是在不同的分辨率层次上逐步进行的

图：Pyramid Flow生成的视频展示

开源和商业使用：Pyramid Flow 在 MIT 许可证下发布，允许广泛的使用，包括商业应用、修改和再分发，吸引了希望将模型集成到专有系统中的开发者和公司。

NO.3

Rhymes AI发布首款开源多模态AI模型Aria，性能超越GPT-4o mini

近日，日本初创公司 Rhymes AI 发布首款开源多模态AI模型 Aria。

Aria 是一个多模态本地混合专家模型，能够在多种多模态、语言和编码任务中表现出色，尤其在视频和文档理解方面具有优势。它支持长达 64K 个 token 的多模态输入，并能在 10 秒内为 256 帧视频生成字幕。

Aria 的设计轻量且快速，能够高效编码不同大小和纵横比的视觉输入。

Aria 的设计理念是希望能够在文本、代码、图像和视频等多种输入形式上，提供卓越的理解和处理能力。

与传统的 Transformer 模型不同，MoE 模型通过多个专业的专家来替代其前馈层。当处理每个输入令牌时，一个路由模块会选择一部分专家进行激活，从而提高计算效率，减少每个令牌的激活参数数量。

在训练方面，Rhymes AI 共分为四个阶段，先用文本数据进行预训练，再引入多模态数据，接着是长序列的训练，最后进行微调。

根据相关基准测试，Aria 在多个多模态、语言和编程任务中表现优于 Pixtral-12B 和 Llama-3.2-11B 等模型，并且因激活参数较少，推理成本也较低。

此外，Aria 在处理带有字幕的视频或多页文档时表现良好，其理解长视频和文档的能力超过了 GPT-4o mini 和 Gemini1.5Flash 等其他开源模型。

NO.4

Mistral AI发布 Pixtral-12B 技术报告

9 月 12 日，法国 AI 初创公司 Mistral 发布 Pixtral-12B，是该公司首款能够同时处理图像和文本的多模态 AI 大语音模型。

近日，Mistral AI 发布 Pixtral-12B 技术报告。

Pixtral-12B 是一个 120 亿参数的多模态语言模型。经过训练，Pixtral-12B 既能理解自然图像，也能理解文档，在各种多模态基准测试中取得了领先的性能，超越了许多大模型。

与许多开源模型不同的是，Pixtral 也是同类产品中的先进文本模型，并且不会因为在多模态任务中表现出色而降低自然语言性能。

Pixtral 使用从零开始训练的全新视觉编码器，可按自然分辨率和长宽比摄取图像。这样，用户就能灵活处理图像中使用的 token 数量。Pixtral 还能在 128K token 的长上下文窗口中处理任意数量的图像。

Pixtral 12B 的性能大大优于其他类似大小的开源模型（Llama-3.2 11B 和 Qwen-2-VL 7B）。它还优于 Llama-3.2 90B 等更大的开源模型，但体积却小了 7 倍。

Mistral 还贡献了一个开源基准 —— MM-MT-Bench，用于评估实际场景中的视觉语言模型，并为多模态 LLM 的标准化评估协议提供了详细的分析和代码。

参考：
https://huggingface.co/BAAI
https://pyramid-flow.github.io/