图片来源:Unsplash
根据The Information报道,阿里巴巴集团云业务部门于2023年宣布推出由其自主团队开发的第一代人工智能模型时,这家中国科技巨头在一份声明中表示,将在“不久的将来”将这些名为Qwen的模型整合到旗下各项业务中。
现实并非如此简单。阿里巴巴的六个业务部门——包括其摇钱树般的中国电商业务和在线娱乐服务部门——都在自行制定技术采购决策。据知情员工透露,一些开发人工智能应用的团队对 Qwen 的功能非常不满意,以至于他们一直使用其他公司的人工智能模型,例如 Meta Platforms 的 Llama,直到 2024 年。最近,一些阿里巴巴的应用选择使用 DeepSeek 的 R1 来支持其人工智能功能。
从那时起,情况发生了很大变化。阿里巴巴如今在全球开源人工智能领域处于领先地位,在多项基准测试中领先于 Meta Platforms 的 Llama。尽管阿里巴巴最大的模型与 DeepSeek 的 R1 模型不相上下,但企业用户表示,他们更喜欢阿里巴巴的模型,因为它提供了更广泛的模型阵容,包括一些运行成本低于 DeepSeek 最新 R1 模型的小型模型。阿里巴巴自己的业务部门已经完全转向 Qwen。与此同时,阿里巴巴正在赢得外部企业的青睐,因为它正在成为中国最大的开源人工智能模型提供商。
据该公司称,截至今年1月,已有超过29万客户在使用其Qwen模型,涵盖汽车、医疗保健、教育和农业等多个行业。一些人工智能应用初创公司现在在构建软件时选择阿里巴巴开发的模型,而非Llama。阿里云也在努力提升Qwen模型的全球影响力。例如,在日本,总部位于东京的人工智能开发商Abeja今年已使用Qwen开发了多个专为日语设计的大型语言模型。
Qwen 和 DeepSeek 的成功表明,中国企业正开始在开源人工智能领域超越美国,而开源人工智能正是国际人工智能竞赛的一大主要阵地。这具有重大意义,因为开源人工智能软件的低成本意味着企业更有可能采用它。如果全球更多开发者使用中国的开源模型,像阿里巴巴这样的中国科技巨头可能会重塑全球人工智能软件生态系统。
阿里巴巴和DeepSeek等中国开源模式也可能有助于加速人工智能在中国的普及,并引发国内企业和消费者领域人工智能应用的激增。鉴于中国庞大的市场以及国有企业和政府机构对开源人工智能解决方案日益增长的接受度,其潜在影响是巨大的。
上周,英伟达首席执行官黄仁勋在公司财报电话会议上表示,DeepSeek 和阿里巴巴的 Qwen 是“最佳开源人工智能模型之一”。黄仁勋还谈到了美国如何通过在美国平台上部署和优化这些中国开源模型来从中获益。“当像 DeepSeek 和 Qwen 这样的模型在美国基础设施上表现最佳时,美国就赢了,”他说道。
根据英伟达上个月发表的一篇论文,英伟达的人工智能研究团队最近开发了名为 Cosmos-Reason1 的新型人工智能模型,该模型可用于机器人、自动驾驶汽车和其他需要理解物理世界能力的应用。该团队使用阿里巴巴的开源模型作为 Cosmos-Reason1 模型之一的基础。
据员工称,对于中国最大的云服务提供商阿里云来说,各种规模和规格的开源 Qwen 模型阵容可能会促使更多企业开始使用阿里巴巴的云计算平台。
阿里巴巴如何在开源人工智能领域取得领先地位,对亚马逊、微软和谷歌等美国科技巨头来说是一个教训,这些公司的运营方式比阿里巴巴更加集中化。阿里巴巴允许旗下各业务部门自主运营的决定,原本是公司分拆的前奏,但最终并未分拆。但事实证明,这对阿里巴巴来说是一个幸运的转机,迫使其人工智能工程师更加努力地提升模型的吸引力。
工程师们意识到,如果他们不能说服阿里巴巴自己的业务部门 Qwen 模型是最好的,他们也无法说服外部客户。
Qwen诞生始末
阿里巴巴是中国人工智能模型开发的先行者之一。2021年,也就是OpenAI发布ChatGPT的前一年,阿里巴巴旗下研究院达摩院推出了一款名为M6的人工智能模型。该模型基于谷歌工程师开发的Transformer架构,OpenAI曾将其用于其GPT生成式人工智能模型,例如2019年发布的GPT-2。
2022年末,OpenAI发布ChatGPT,在全球科技界掀起一股热潮,阿里巴巴也因此加大了这方面的投入。阿里巴巴提拔了微软资深高管周靖人,他于2015年加入阿里巴巴,曾参与M6项目的开发,担任阿里云首席技术官。
周靖人着手开发新一代人工智能模型,名为“统一千问”(简称Qwen)。在汉语中,“统一”意为“广博的知识”,“千问”意为“一千个问题”。这个名字象征着阿里巴巴在大语言模型(LLM)领域的雄心壮志。
阿里云于 2023 年 4 月发布了第一个版本,六个月后发布了第二个版本 Qwen2。
当时,中国国内 LLM 的开发竞赛尚处于初期阶段。阿里巴巴和其他中国公司正努力追赶OpenAI、Anthropic、谷歌和Meta等美国领军企业。数十家本土企业,包括科技巨头和初创公司,都在竞相构建各自的基础模型。市场竞争异常激烈,以至于中国媒体将这一现象称为“百模之战”。
在阿里巴巴应对日益激烈的人工智能竞争之际,该公司经历了一次历史性的重组。2023年初,阿里宣布将分拆为一家控股公司旗下六个高度独立的业务集团。阿里巴巴当时表示,分拆将使每个业务部门能够更快地响应市场变化。
2023年9月,阿里巴巴时任首席执行官张勇卸任,由吴泳铭接任。吴泳铭是1999年创立阿里巴巴的18位创始人之一。吴泳铭曾担任阿里巴巴多家企业的首席技术官,他执掌阿里巴巴后,主要关注人工智能战略。
2024年上半年,阿里云加大力度说服其他业务部门在其所有AI产品中使用Qwen模型。阿里云员工联系了各个部门,并尝试与正在开发AI应用和功能的团队进行沟通。但在2023年重组之后,业务部门之间的沟通减少了。一个部门的员工通常对其他部门的组织架构或各自负责哪些工作知之甚少。
当时,阿里巴巴的人工智能开发工作既侧重于 Qwen 模型的专有版本,也侧重于开源版本。但在过去一年中,随着 Qwen 的开源版本开始收到更多来自中国和美国人工智能开发者社区的反馈,初创公司、学术研究人员和博士生开始使用它们构建自己的定制人工智能模型,阿里巴巴的重点逐渐转向开源模型。
相比之下,专有的 Qwen 模型并没有引起太多关注,尽管它们与 OpenAI、Anthropic 和谷歌以及字节跳动等中国竞争对手的最佳模型进行了竞争。
Qwen 团队在公众认知度上的首次重大突破是在 2024 年底,当时 Qwen2.5 开源模型发布,获得了中美两国开发者的积极反馈,并帮助阿里巴巴成为开源模型的领导者之一。在阿里巴巴内部,许多开发 AI 应用的团队也采用了 Qwen2.5。
代理 AI 初创公司 ReOrc 的创始人 Tony Ren 表示,去年 9 月发布的 Qwen 2.5 开源版本“表现明显优于”今年早些时候发布的 Llama 3。
但 DeepSeek 的成功很快掩盖了 Qwen2.5 的短暂热度。DeepSeek 是一家中国量化对冲基金旗下成立两年的子公司,2 月初,其 R1 开源推理模型凭借强大的性能和低廉的开发成本震惊了全球科技行业,一跃成为全球明星。
阿里巴巴的许多云服务客户都要求使用 DeepSeek 模型,因此阿里云在其 AI 模型库中新增了 R1 模型。阿里巴巴自身的一些 AI 应用和功能也采用了 DeepSeek 模型。例如,据一位知情员工透露,阿里巴巴旗下热门旅行应用飞猪就决定使用 R1 模型来构建其今年 4 月推出的全新 AI 旅行助手功能 AskMe。
阿里巴巴致力于帮助中国境外的商家找到来自中国供应商的产品,该公司也将 R1 集成到了其人工智能搜索应用 Accio 中。阿里巴巴的一些商业智能团队也在其内部分析工具中采用了 R1。
马云的关注
DeepSeek 的成功给 Qwen 团队带来了巨大的压力。据两位知情人士透露,就连六年前卸任高管和董事会职务的阿里巴巴标志性创始人马云,也频繁要求阿里云首席技术官周靖人汇报 Qwen3 的开发进度。马云的关注提醒 Qwen 团队成员,Qwen3 不仅是阿里云的当务之急,也是整个阿里巴巴的当务之急。
阿里巴巴的压力进一步加大,他们希望新机型能在 DeepSeek 推出备受期待的 R1 继任者之前上市。在办公室里,Qwen 团队成员有时会轮流在办公桌下的床垫上打个盹儿。据一位员工透露,在 Qwen3 于 4 月发布前的最后一周,一些成员整整一周只睡了五六个小时。
与此同时,负责公司Llama模型的Meta AI团队也在努力追赶DeepSeek和其他竞争对手。4月初,Meta发布了其最新一代开源AI模型Llama 4,但一些批评人士对此反应冷淡,认为其相对于上一代模型的改进过于循序渐进。据两名员工称,这让阿里巴巴内部测试了Llama 4的Qwen团队松了一口气。他们更加有信心,即将推出的Qwen3模型将获得全球AI开发者社区的积极反馈。
四月下旬,阿里巴巴终于发布了Qwen3,这套包含八款不同尺寸和规格的模型。所有八款模型均为开源模型,彰显了阿里巴巴的战略重点。阿里巴巴表示,Qwen3可以根据用户的偏好,在执行数学和编程等复杂任务的“思考模式”和快速响应简单提示的“非思考模式”之间切换。阿里巴巴首席执行官吴泳铭在上个月的财报电话会议上表示,公司坚定地致力于开源人工智能。“我们相信,Qwen3的全面开源将推动开发者、初创企业和企业的创新和新应用的开发,”他说道。
根据 AI 模型排行榜 LiveBench 和 Artificial Analysis 的数据,阿里巴巴于 4 月底发布的最新一代 Qwen3 模型的多个版本的表现均优于 Meta 最新的 Llama 4 模型。Qwen3 的最大版本最初在这些排行榜上超过了 DeepSeek 的 R1,但 DeepSeek 上周发布了 R1 的更新版本,再次超越了 Qwen3。
阿里巴巴自己的 AI 产品之前使用 DeepSeek,现在则依赖于 Qwen。据知情员工透露,阿里巴巴的旅行应用飞猪正在将其 AskMe AI 旅行助手的基础模型从 R1 切换到 Qwen3。面向商家的 AI 搜索应用 Accio 也在逐步淘汰 R1,同时采用 Qwen3。
ReOrc 的任先生正在为中国国内外的客户构建企业 AI 代理,他表示,他认为在 Qwen3 上为海外客户开发企业代理具有巨大的潜力。
上一篇:天问二号十年之旅将带回什么