最新开源:智源BGE登顶Hugging Face月度榜!北大&快手开源Pyramid Flow!Rhymes AI开源Aria!
共 3938字,需浏览 8分钟
·
2024-10-16 07:00
近日,Hugging Face更新了月度榜单,智源研究院的 BGE 模型登顶榜首,这是中国国产AI模型首次成为Hugging Face月榜冠军。BGE 在短短一年时间内,总下载量已超数亿次,是目前下载量最多的国产AI系列模型。
BGE,全称BAAI General Embedding,是北京智源人工智能研究院研发的开源通用向量模型,该系列模型专为各类信息检索及大语言模型检索增强应用而打造。
自2023年8月发布首款模型 BGE v1,历经数次迭代,BGE 已发展为全面支持“多场景”、“多语言”、“多功能”、“多模态”的技术生态体系。
BGE 不仅性能综合卓越,多次大幅刷新 BEIR、MTEB、C-MTEB 等领域内主流评测榜单,而且始终秉持彻底的开源开放的精神,“模型、代码、数据” 向社区完全公开。BGE 在开源社区广受欢迎,许多 RAG 开发者将其比作信息检索的“瑞士军刀”。
10月11日,北京大学、北京邮电大学和快手科技联合开源了一款名为Pyramid Flow的高清视频生成模型。用户在输入文本之后,即可生成最长 10 秒、分辨率高达 1280x768、帧率 24fps 的高质量视频。
项目地址:https://pyramid-flow.github.io
论文地址:https://arxiv.org/pdf/2410.05954
Demo地址:https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow
Pyramid Flow 的核心特点如下:
高效生成:Pyramid Flow 采用新技术,通过统一 AI 模型分阶段生成视频,大多数阶段为低分辨率,只有最后阶段为全分辨率。这种“金字塔流匹配”方法保持了视频的高视觉质量前提下,大幅降低了计算成本,tokens 数量是传统 diffusion 模型的四分之一。
图:金字塔流匹配算法:视频的生成是在不同的分辨率层次上逐步进行的
-
快速推理:在推理过程中,该模型可以在 56 秒内生成一个 5 秒、384p 的视频,速度媲美许多全序列 diffusion 模型,甚至更快。
-
开源和商业使用:Pyramid Flow 在 MIT 许可证下发布,允许广泛的使用,包括商业应用、修改和再分发,吸引了希望将模型集成到专有系统中的开发者和公司。
近日,日本初创公司 Rhymes AI 发布首款开源多模态AI模型 Aria。
Aria 是一个多模态本地混合专家模型,能够在多种多模态、语言和编码任务中表现出色,尤其在视频和文档理解方面具有优势。它支持长达 64K 个 token 的多模态输入,并能在 10 秒内为 256 帧视频生成字幕。
Aria 的设计轻量且快速,能够高效编码不同大小和纵横比的视觉输入。
论文地址: https://arxiv.org/abs/2410.05993
Code地址: https://github.com/rhymes-ai/Aria
官网地址: https://rhymes.ai/
Aria 的设计理念是希望能够在文本、代码、图像和视频等多种输入形式上,提供卓越的理解和处理能力。
在训练方面,Rhymes AI 共分为四个阶段,先用文本数据进行预训练,再引入多模态数据,接着是长序列的训练,最后进行微调。
根据相关基准测试,Aria 在多个多模态、语言和编程任务中表现优于 Pixtral-12B 和 Llama-3.2-11B 等模型,并且因激活参数较少,推理成本也较低。
此外,Aria 在处理带有字幕的视频或多页文档时表现良好,其理解长视频和文档的能力超过了 GPT-4o mini 和 Gemini1.5Flash 等其他开源模型。
9 月 12 日,法国 AI 初创公司 Mistral 发布 Pixtral-12B,是该公司首款能够同时处理图像和文本的多模态 AI 大语音模型。
近日,Mistral AI 发布 Pixtral-12B 技术报告。
Pixtral-12B 是一个 120 亿参数的多模态语言模型。经过训练,Pixtral-12B 既能理解自然图像,也能理解文档,在各种多模态基准测试中取得了领先的性能,超越了许多大模型。
论文地址:https://arxiv.org/pdf/2410.07073
官网地址: https://mistral.ai/news/pixtral-12b/
Inference code: https://github.com/mistralai/mistral-inference/
Evaluation code: https://github.com/mistralai/mistral-evals/
Pixtral 使用从零开始训练的全新视觉编码器,可按自然分辨率和长宽比摄取图像。这样,用户就能灵活处理图像中使用的 token 数量。Pixtral 还能在 128K token 的长上下文窗口中处理任意数量的图像。
Mistral 还贡献了一个开源基准 —— MM-MT-Bench,用于评估实际场景中的视觉语言模型,并为多模态 LLM 的标准化评估协议提供了详细的分析和代码。
参考:
https://huggingface.co/BAAI
https://pyramid-flow.github.io/