全面赶超GPT-4？阿里云发布通义千问2.5，一文带你读懂通义千问-轻识

2024年5月9日，阿里云官方在AI智领者峰会中官宣了通义千问2.5版本，并开源了1100亿参数模型Qwen1.5-110B。

一关于通义千问2.5

阿里云表示，与通义千问2.1版本相比，通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%；与GPT-4相比，中文语境下，通义千问2.5文本理解、文本生成、知识问答及生活建议、闲聊及对话、安全风险等多项能力赶超GPT-4。但实际使用体验还需验证。

随着通义千问2.5的发布，阿里官方晒出了一张LLM排行榜的截图，在上海AI实验室推出的权威基准OpenCompass上，通义千问2.5得分追平GPT-4Turbo，GPT-4-Turbo-1106版本和Qwen-Max-0403并列第一名。是国产大模型首次在该基准取得该项成绩。

在最新的OpenCompass排行榜中，通义系列模型的排名有所回落，但依然处于第4和第5名。

OpenCompass司南 - 评测榜单：https://rank.opencompass.org.cn/home

二关于Qwen1.5-110B

通义千问和Qwen模型之间的关系。首先，通义千问是阿里云推出的LLM模型的一个统称，模型分为闭源和开源两大类。闭源模型包括上面排行榜截图里的Qwen-Max-0403和Qwen-Max-0107等。开源模型则包括本次AI峰会提到的1100亿参数模型Qwen1.5-110B，以及小尺寸模型0.5B、1.8B、4B、7B、14B。而我们平时基于用户角度提到的“通义千问”则是指阿里官方基于通义闭源模型推出的免费的AI对话平台，类似于GPT系列模型和ChatGPT的关系。

Qwen模型：

https://github.com/QwenLM/Qwen
https://ollama.com/library/qwen
https://huggingface.co/Qwen

三通义千问模型概览

3.1 商用模型

3.2 开源模型

四通义千问 VS 文心一言开源之路

在 AI“源神”启动！Llama 3发布，开闭源之争战局生变这篇文章中我们提到李彦宏一直是闭源路线的忠实拥趸，认为大模型开源意义不大，闭源模型性能会不断提升。他也确实做到了，文心一言3.5 开源模型效果非常差。

反观通义千问

阿里云CTO周靖人表示：“开发者的反馈和开源社区的生态支持，是通义大模型技术进步的重要助力。” 未来通义大模型还会持续开源。

通义大模型坚持开源战略，其开源的这些大模型也多次进入LLM模型排行榜前几名。在目前最新的LMSYS Chatbot Arena Leaderboard排行榜中，Qwen-Max-0428目前位列第10名，Qwen1.5-110B-Chat则为第13名，这在竞争极其激烈的AI大模型领域是非常不错的排名了。可以说，阿里把通义这个我国本土大模型做到了全球知名。