开源大模型得分新纪录!阿里千问3性能全球第三
创始人
2025-08-03 09:20:32
0

潮新闻客户端 记者 张云山

8月2日凌晨,国际权威大模型评测 Chatbot Arena更新了最新一期的大模型榜单,上周新鲜开源的阿里千问3新模型斩获1433分,超越顶尖闭源模型Grok4、Claude4,位列所有闭源及开源模型的全球总榜第三。同时,千问3还夺得数学、代码、复杂提示、长文本检索、指令遵循等5项全球第一。

全球知名ChatBot Arena大模型排行榜,千问3位列全球顶级模型第三、开源第一(受访者供图)

Chatbot Arena是由独立研究机构LMSYS Org推出的大模型评测平台,其评测分数被认为是全球最具公信力的大模型榜单。

不到一年前,Qwen2.5-72B是第一个入选该榜前十的中国大模型;上周开源的千问3非思考基础模型 Qwen3-235B-A22B-Instruct-2507 再次实现重大突破,揽获5项关键能力全球第一,并以1433分的总分创下开源大模型的史上最高分,力压Grok4、Claude4、Gemini 2.5-Flash、GPT4.1等一众顶级闭源模型,千问3与GPT4.5并列全球第三。

千问3在数学、代码、复杂提示、长文本、指令遵循等方面位列全球第一(受访者供图)

7月22日起,阿里通义团队接连开源千问3基础模型、AI编程模型和推理模型,性能均实现同类开源模型的新突破。除千问3 指令(Instruct)模型外,推理模型 Qwen3-235B-A22B-Thinking-2507 也闯进榜单前十,数学能力并列全球第一;在Chatbot Arena专门评估编程能力的WebDevArena子榜单中,编程模型Qwen3-Coder性能与Gemini2.5 Pro、DeepSeek-R1、Claude4并列第一。

通义模型(受访者供图)

本周,通义千问仍在以“周级迭代”频率持续更新:Qwen3-30B-A3B 更新了Instruct模型、推理模型、编程模型等3款模型,性能媲美Gemini2.5-flash、GPT-4o,可在消费级硬件直接部署,广受开发者欢迎。

同时,千问3新模型的“训练秘籍”GSPO新算法也对外公开,GSPO从根源上解决了大规模MoE模型在强化学习中的稳定性问题,训练效率较经典GRPO算法实现大幅提升,GSPO论文在全球最大的AI开源社区HuggingFace里论文热度排名第一。

阿里千问模型API调用量市场份额超10.9%,位列全球第四(受访者供图)

阿里AI多连发,在全球范围内引发新一轮接入中国开源模型热潮。

海外大模型API聚合平台OpenRouter数据显示,阿里千问模型全球市场份额逾10.9%,超越OpenAI和Meta-Llama系列模型,位列全球第四;其中,Qwen3-Coder调用量一周暴增1474%,位列编程领域的全球第二。

编程领域中,Qwen3-Coder尤受AI社区欢迎,API调用量一周暴增1474%(受访者供图)

截至目前,阿里已开源300余个模型,持续推进“全尺寸”、“全模态”的全面开源。通义千问衍生模型已超过14万个,是全球第一的开源模型,也是中国企业用得最多的大模型。

未来三年,阿里巴巴还将投入3800亿元在AI和云基础设施建设上,夯实“AI全栈”的技术体系和战略布局,为全球开发者和企业提供更高性能、更普惠的AI和云计算服务。

相关内容

热门资讯

苹果iPad维修成本过高,接近... 2025-08-02 08:40:06 作者:狼叫兽 近日有相关文件显示,苹果提供的 iPad ...
扎克伯格认输了!将用AI填补人... 来源:北京商报 近日,据财联社报道,美国科技媒体The Verge副主编亚历克斯·希思发文解析了Me...
揭秘火星奥林匹斯山:为何能超越... 在浩瀚的太阳系中,有一座山峰,其雄伟程度甚至超越了地球上的珠穆朗玛峰,它就是位于火星表面的奥林匹斯山...
宁波道康智能科技取得旋钮装置专... 金融界2025年8月2日消息,国家知识产权局信息显示,宁波道康智能科技有限公司取得一项名为“旋钮装置...
天地科技获得发明专利授权:“巷... 证券之星消息,根据天眼查APP数据显示天地科技(600582)新获得一项发明专利授权,专利名为“巷道...
赛道Hyper | 小鹏机器人... 作者:周源/华尔街见闻 最近有消息称,小鹏机器人中心新成立智能拟态部,将目光锁定于机器人多模态领域,...
原创 假... 你知道吗,在太阳系的众多星球里,天王星特别显眼,因为它有一身漂亮的蓝色 “外衣”。这颜色咋来的呢?原...
原创 月... 家人们,今天咱们来聊聊一个超酷的话题 —— 月球上的氦 - 3,这玩意儿储量据说够地球用几万年,它真...
2025年AI算力需求预期差:... 今天分享的是:2025年AI算力需求预期差:大集群+主权AI 报告共计:20页 全球AI算力需求迎爆...
厦门高纯氢气实验室 这是(Ghs15980987101)整理的信息,希望能帮助到大家 在现代科技迅速发展的背景下,高纯氢...
西门子主机维修误区及正确操作流... 这是(13611080985)整理的信息,希望能帮助到大家 在现代工业自动化中,西门子主机作为核心控...
电动自行车智能服务失效:2G基... IT之家 8 月 3 日消息,据相关统计,我国电动自行车保有量已达到约 3.8 亿辆,其中配备定位、...
浙江移动“数智引擎”赋能中小企... 柳蓬 数智化转型是中小企业提升核心竞争力、增强发展韧性的关键路径。浙江移动构建以5G、算力网络、能力...
主播说联播丨规范电话营销,有新... 近日,中国电信、中国移动、中国联通公布了它们的唯一官方外呼营销号码,分别为10001、10085、1...
原创 苹... 苹果iOS18.6正式版发布之后太火爆了,这次带来的优化很多,被很多老果粉认可,很多用户表示为什么更...
被判赔2.43亿美元!特斯拉有... 马斯克可能做梦都没有想到,六年前自己吹下的牛成了回旋镖。 就在 8 月 1 日,经美国佛罗里达州陪审...
企业转型踏“云”而上(智改数转... □本报记者 王昺南 成利军 “企业上云,就是企业采用云计算、大数据等为企业服务的一种模式,相当于给企...
抖音副业项目:在抖音上发布AI... 今天拆解一个抖音上的“搞钱语录”项目,它属于内容创作的范畴,与名人名言类视频的逻辑相似,核心是输出有...
开源大模型得分新纪录!阿里千问... 潮新闻客户端 记者 张云山 8月2日凌晨,国际权威大模型评测 Chatbot Arena更新了最新一...
循光科技取得一种多色光源器件专... 金融界2025年8月2日消息,国家知识产权局信息显示,深圳循光科技有限公司取得一项名为“一种多色光源...