Qwen3小升级即SOTA,开源大模型王座快变中国内部赛了
创始人
2025-07-22 18:41:12
0

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

开源大模型正在进入中国时间。

Kimi K2风头正盛,然而不到一周,Qwen3就迎来最新升级,235B总参数量仅占Kimi K2 1T规模的四分之一。

基准测试性能上却超越了Kimi K2。

Qwen官方还宣布不再使用混合思维模式,而是分别训练Instruct和Thinking模型。

所以,此次发布的新模型仅支持非思考模式,现在网页版已经可以上线使用了,但通义APP还未见更新。

Qwen官方还透露:这次只是一个小更新!大招很快就来了!

但总归就是,再见Qwen3-235B-A22B,你好Qwen3-235B-A22B-2507了。

By the way,这个名字怎么取得越来越复杂了。

先来看看这次的“小更新”都有哪些~

增强了对256K长上下文的理解能力

新模型是一款因果语言模型,采用MoE架构,总参数量达235B,其中非嵌入参数为234B,推理时激活参数为22B

在官方介绍中显示,模型共包含94层,采用分组查询注意力(GQA)机制,配备64个查询头和4个键值头,并设置128个专家,每次推理时激活8个专家。

该模型原生支持262144的上下文长度。

这次改进主要有以下几个方面

  • 显著提升了通用能力,包括指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用。

  • 大幅增加了多语言长尾知识的覆盖范围。

  • 更好地符合用户在主观和开放式任务中的偏好,能够提供更有帮助的响应和更高质量的文本生成。

  • 增强了对256K长上下文的理解能力。

在官方发布的基准测试中可以看到,相较于上一版本,新模型在AIME25上准确率从24.7%上升到70.3%,表现出良好的数学推理能力。

而且对比Kimi K2、DeepSeek-V3,Qwen3新模型的能力也都略胜一筹。

为了提高使用体验,官方还推荐了最佳设置:

Qwen3新版本深夜发布就立刻收获了一众好评:Qwen在中等规模的语言模型中已经领先。

也有网友感慨Qwen在开启新的架构范式:

One More Thing

有趣的是,就在Qwen3新模型发布的前两天,NVIDIA也宣称发布了新的SOTA开源模型OpenReasoning-Nemotron

该模型提供四个规模:1.5B、7B、14B和32B,并且可以实现100%本地运行。

但实际上,这只是基于Qwen-2.5在Deepseek R1数据上微调的模型。

而现在Qwen3已经更新,大招已经被预告。

随着Llama转向闭源的消息传出,OpenAI迟迟不见Open,开源基础大模型的竞争,现在正在进入中国时间。

DeepSeek丢了王座,Kimi K2补上,Kimi K2坐稳没几天,Qwen的挑战就来了。

体验链接:https://chat.qwen.ai/

参考链接:

[1]https://x.com/Alibaba_Qwen/status/1947344511988076547

[2]https://x.com/giffmana/status/1947362393983529005

相关内容

热门资讯

人工智能首次进入热门专业前十 ... 随着高考录取结果陆续公布,7月22日,QQ浏览器联合腾讯新闻,聚焦AI时代下的志愿新选择,发布《25...
艾络科技AN-G4i型智能物联... 随着工业物联网的快速发展,边缘计算正成为企业数字化转型的重要支撑技术。传统集中式云计算架构在面对海量...
Meta的AI之路,为何节节败... 一周前,硅谷爆出消息:Meta以4年2亿美元的天价合约,从苹果挖走AI模型团队负责人庞若明,并组建超...
天文学家证实参宿四恒星有伴星 天文学家利用“Alopeke”仪器发现了一颗围绕参宿四运行的伴星。图片来源:国际双子座天文台 据最...
甲骨文助力OpenAI数据中心... 当地时间 7 月 22 日,人工智能领域掀起波澜,OpenAI与甲骨文(Oracle) 宣布达成重磅...
纳欣科技申请耳机检测方法相关专... 金融界2025年7月22日消息,国家知识产权局信息显示,纳欣科技有限公司申请一项名为“耳机检测方法、...
海尔申请基于RAG系统的检索方... 金融界2025年7月23日消息,国家知识产权局信息显示,青岛海尔洗衣机有限公司;海尔智家股份有限公司...
AI人才争夺战!微软挖走谷歌D... 据金融时报报道,微软从谷歌 DeepMind 研究部门招募了 20 多名人工智能员工,这是硅谷科技巨...
翔阳金属取得不锈钢热处理加工设... 金融界2025年7月22日消息,国家知识产权局信息显示,浙江嘉兴翔阳金属材料科技有限公司取得一项名为...
能将水果室温保质期延长5倍 这... 电视剧《长安的荔枝》中,雷佳音扮演的李善德通过努力,将鲜荔枝的保鲜期提至11天;现实生活中,陕西师范...
Anthropic最新研究:在... 文章转载于腾讯科技 作者:博阳 2024年,一项关于AI安全的研究震动了整个领域,其核心发现来自AI...
拿下全球人形机器人近亿元最大订... 全球人形机器人迄今为止最大的单笔订单,近日被深圳市优必选科技股份有限公司(以下简称“优必选”)拿下。...
周鸿祎谈Manus爆雷,称广告... 来源:新浪科技 【#周鸿祎谈Manus爆雷#:#周鸿祎称广告模式不work了#,要向用户直接收费】#...
数智时代的中国文化:要为全球创... 学术圆桌 | 把握文化新质生产力跃迁的底层逻辑 编者按 习近平总书记强调,“要着力激发全民族文化创新...
25日冥王星冲日!迎来观赏期 25日迎来冥王星冲日。冲日前后,冥王星最接近地球、亮度最高,几乎整夜都可以观测到,是一年中观测的最好...
达仁堂获得发明专利授权:“清咽... 证券之星消息,根据天眼查APP数据显示达仁堂(600329)新获得一项发明专利授权,专利名为“清咽利...
iQOO Neo11系列规格曝... 据爆料者透露,iQOO Neo11系列于Q4季度发布,该系列作为主打极致性能的直屏手机,配置规格上是...
一季报利润7599万元,固态电... 来源:向往心里的自由 我要明确指出,当前市场的热点无疑聚焦于固态电池! 如果你尚未察觉这一趋势,那可...
谷歌Veo 3新玩法走红,毛坯... 过去一周,是谁在用AI产出爆款,或围绕AI创作好玩有趣的内容? 欢迎来到“AI新榜”推出的「AI一周...
开源世界需要一个类似Chrom... 亲爱的圣诞老人,在今年10月Windows 10终止支持之际,请给我们一个极其简单、坚如磐石的全开源...