​“大模型高考状元”花落谁家?高考前夜这个AI火了
创始人
2024-06-11 18:22:29
0

“大模型高考元年”来了!2024高考刚刚落幕,市面上的大模型几乎都被提溜出来,在公众围观下角逐“AI高考状元”。

就在高考前夜,有一家大模型公司放了大招。6月7日凌晨0点左右,阿里云发布通义千问第二代开源模型Qwen2。几小时后,Qwen2-72B 拿下开源大模型赛场的“高考状元”,超越Llama3-70B等上百个对手,在全球最权威的开源模型榜单Open LLM Leaderboard 夺冠。

亮相即登顶,Qwen2-72B展示出中国开源模型的强大竞争力,不仅超越美国的Llama3,也盖过了文心4.0等一众中国闭源模型。事实上,在上海人工智能实验室推出的模型测评权威榜单OpenCompasss上,通义千问上一代开源模型Qwen1.5-110B已领先于文心4.0等闭源模型,而Qwen2性能相比Qwen1.5又有大幅提升,继续扩大领先优势。

更强的免费开源模型上架,全球开发者喜出望外。在魔搭和Hugging Face等开源社区,Qwen2模型开源后四天下载量近百万。

Qwen2-72B在十多个权威测评中获得冠军,超过美国的Llama3-70B模型

近期,网友们正在让Qwen2-72B与各大模型组局对战,测评发现,Qwen2-72B不仅能写高考作文,还能回答弱智吧问题,比如流畅解答“祖父悖论”逻辑题,巧妙回应网友的挖坑提问“如何炒一盘麻辣螺丝钉”,甚至还能向人类输出情绪价值。

这个AI除了会写作文,还懂人情世故

大模型进入“新手村”,按照江湖惯例,要先考考弱智吧问题,首先是“祖父悖论”逻辑题:“为何爸妈没叫我参加他们的婚礼?”参赛选手是Llama3和Qwen2。Llama3一本正经地从社会风俗、被邀请者年龄是否适合参加婚礼等方面,给出了不邀请的原因。Qwen2则直截了当回答,“因为你当时还没有出生呢!”说完还不忘安慰网友——“虽然你没有亲历他们的婚礼,但你可以通过照片、视频或他们的回忆来了解那个特别的日子”。

有网友想捉弄AI,“挖坑”分别问Qwen2和智谱AI怎么做“麻辣螺丝钉”。智谱AI一本正经地提出,麻辣螺丝钉是一道受到很多人喜爱的家常菜,Qwen2赶紧制止网友:螺丝钉是五金配件,食用需谨慎,接着还贴心提示,如果实在想吃,咱大可吃麻辣花生或者麻辣豆腐干。

还有网友用博大精深的中文近似名词来测试大模型的反应,对大模型输入“货拉拉拉不拉拉布拉多”,Qwen2快速识别出,这是对品牌名“货拉拉”、狗品种名“拉布拉多”以及动词“拉”在玩梗,Llama3则几乎把每个字都拆开来解读,“字面”地理解了“货拉拉拉不拉拉布拉多”。

当然,有时候AI还为我们指出了某句话中我们未曾察觉的其他可能。比如,当输入《夏洛特烦恼》中的经典台词“我管你叫爸,你管我叫哥”时,Qwen2一眼看出这是某种朋友或兄弟间的调侃。文心一言则长篇大论梳理了“爸”和“哥”的称谓使用方式,并说“无法确定这两个人的真实关系”。

还有网友祭出了人类都不一定能处理妥当的“人情世故”题,比如“共有5杯水,来了1亿个领导,怎么分?”Qwen2给领导们安排得明明白白。

除了上述案例,网友还用AI来做数学题、写代码,Qwen2的表现也胜过绝大部分闭源模型。感兴趣的读者可以登录上海人工智能实验室与魔搭社区联合推出的大模型竞技场Compass Arena,在几十款主流大模型中任选其他模型和Qwen2组队对战。

这非常符合Qwen系列模型的中文含义,“通义”,本意就为“通情,达义”。相比于上一代模型,Qwen2不仅有了更强的代码、数学、推理、指令遵循、多语言理解等能力。通义千问团队在技术博客中透露,大规模预训练后,团队对模型进行了精细的微调,以提升其智能水平,让其表现更接近人类。模型学会对齐人类价值观,它也随之变得更加对人类有帮助、诚实以及安全。

在Qwen1.5系列中,只有32B和110B的模型使用了GQA。这一次,所有尺寸的模型都使用了GQA,这能让模型推理加速,也能让用户降低显存占用。当然,考虑到多语言的需求,通义千问团队还提升了模型的多语言能力,除中英文以外,专门对德语、日语、法语、西班牙语、葡萄牙语、意大利语等27种语言进行了增强。

开源,让AI变得更“通情达义”

Qwen2 、Llama3等顶级开源模型的出现,正在改变大模型江湖开闭源两个阵营的力量对比。

事实上,开源和闭源一直都是业界关注的话题。用人话讲,开源即代表着模型的源代码、模型权重等都公开可用,这些模型可以供使用者下载、使用、二次开发。大模型极高的训练和迭代成本,让目前绝大部分的AI开发者和中小企业都无法负担,而开源则可以帮他们省去基础模型的训练成本,更好地围绕特定场景进行模型开发和应用开发。

不过,在一些坚持闭源逻辑的厂商看来,“开源追不上闭源”。在接受媒体采访时月之暗面创始人杨植麟就曾表示,闭源是一个对市场的整合,会有人才聚集和资本聚集,最后一定是闭源更好。不过杨植麟说,开源和闭源在大模型领域里会是互补的关系。“开源可以支持开发者去尝试各种创新的应用,而且在开发过程中可以对数据、训练过程、环境部署等合规性有更高的要求,场景也会更灵活。而闭源的话也会有自己的价值,比如说像未来的很多超级应用的入口,不管是生产力端还是娱乐消费端,都会有以闭源为核心的超级应用出现。”

周鸿祎则坚定地“相信开源的力量”,他曾表示“一句话,今天没有开源就没有Linux,没有Linux就没有互联网,就连说这话的公司自己都借助了开源的力量才成长到今天。” 周鸿祎还认为,开源社区聚集的工程师和科学家的数量是闭源公司的数百倍。所以开源大模型只做了一年就已经超过了GPT-3.5。他认为,未来一两年内,开源的力量很有可能会达到或者超过闭源的水平。

南都记者关注到,以Meta为代表的大模型厂商最先推动了模型开源风潮。自那以后,多家国内大模型头部厂商,比如阿里云、智谱AI、零一万物等厂商都推出了开源模型。

在国内,阿里云是首个宣布开源自研模型的科技大厂。早在2023年8月,阿里云就推出通义千问第一代开源模型Qwen,并沿着“全模态、全尺寸”开源路线陆续推出几十款款模型。2024年2月,1.5代开源模型Qwen1.5发布;不到4个月后,Qwen2开源。

开源,正在让AI迭代得更快、更智能,也更“通情达义”。可以看到,大模型的开源除了能加快模型落地应用,还能收获开源社区海量的优质反馈,从而反哺到模型本身的迭代升级中。阿里云就多次表示,通义千问持续不断地性能升级,很大程度得益于开发者社区的驱动。

更多的反馈-更好的模型,这个良性循环让Qwen从大模型赛场的外围步入核心地带,成为全球开发者在Llama之外的又一主流选项。不久前,OpenAI创始人奥特曼就在X上转发了一条OpenAI研究员公布的消息,称GPT-4o在测试阶段登上了Chatbot Arena(LMSys Arena)榜首位置,这个榜单是OpenAI唯一认可证明其地位的榜单,而Qwen也是当时唯一上榜的国内模型。

开源策略与生态搭建

谈及选择开源策略的原因,阿里云首席技术官周靖人曾表示,大模型的落地应用需要先有繁荣的生态,而开源是打造生态的最佳途径。阿里云选择选择开源,是希望把顶尖的AI技术开放给企业和开发者,让大家用最低的成本、最高的效率触达优质模型,更快地推进AI技术一系列的创新和发展。

周靖人认为,未来的大模型市场“一定不是one size fits all”,不可能由一个模型服务万物,也不会只有一种服务方式。只有把选择权交到开发者,交给企业,才能更加有效地让AI能力落地在各个业务场景里。

通义千问先后开源了从0.5B到110B的各种尺寸的模型,小尺寸模型适配手机、智能耳机、电脑等端侧设备,大尺寸模型足够开展科研级、企业级的应用。中小企业和开发者要做的选择,事实上是基于各自的场景,在模型的性能和成本之间寻找最佳平衡,周靖人相信:“他们会根据自己的实际场景问题的复杂度,比如调用频次、资源配比等,来做符合于他们业务场景的选择。”

Qwen系列模型的全球爆火,正是中小企业和开发者主动选择的结果。近一个月内,Qwen系列模型总下载量翻倍,累计下载量已突破1600万次。在海内外开源社区,至少有超过1500款基于Qwen二次开发的模型。

采写:南都记者 林文琪

相关内容

热门资讯

百镜出道,C位依旧:WAIC顶... 来源:雷科技 如果说 WAIC 2025 是今年 AI 硬件的「集体高考」,那 Rokid Glas...
韩媒:韩国扶持五大联合体开发“... 综合韩联社、《朝鲜日报》和《京乡新闻》等韩媒报道,韩国政府4日正式选定NAVER Cloud、Ups...
录取通知书的“飞驰”之路 7月盛夏,安徽省近50万封承载着无数学子青春梦想与家庭期盼的高考录取通知书,正从四面八方“飞驰”向它...
凡知智造取得恒温核酸扩增分析仪... 金融界2025年8月6日消息,国家知识产权局信息显示,山东凡知智造医药科技有限公司取得一项名为“一种...
原创 离... [撒花] 随着科技的不断发展,“仿人形机器人”也变的越来越成熟了,AI的加持也让这些机器人变的更加智...
当AI化身“全能助手”,人类的... 正在屏幕前玩手机的你 有没有过这样的体验? 遇到不懂的问题 第一反应不是翻书思考 而是脱口而出“嘿 ...
珠海创信电子取得电路板用锡膏检... 金融界2025年8月6日消息,国家知识产权局信息显示,珠海创信电子有限公司取得一项名为“一种电路板用...
NBN Co转投亚马逊柯伊伯计... 来源:C114通信网 C114讯 北京时间8月6日晚间消息(蒋均牧)NBN Co与亚马逊达成协议,通...
石景山这家医院药品有了“电子身... “窗口不用一盒盒扫码吗?取药几乎不用排队,这速度真给力!”在北京大学首钢医院门诊药房,刚取到药的患者...
电力数据“会说话” 点亮智慧新... 本文转自【新华社】 新华社北京8月6日电 《经济参考报》8月6日刊发记者邓林如采写的文章《电力数据“...
国能新疆红沙泉二号矿实现纯电无... 近日,在国家能源集团新疆红沙泉二号露天煤矿(以下简称“红二矿”),58台无人驾驶矿卡正高效运转,其中...
普天科技:致力数据治理领域打造... 金融界8月6日消息,有投资者在互动平台向普天科技提问:公司相关产品或技术有哪些能为人工智能赋能?谢谢...
DeepMind发布Genie... 来源:至顶网 尽管目前还没有人找到通过生成式人工智能赚钱的可靠方法,但这并没有阻止Google D...
【喜讯】骨三科陈美玲在全国竞赛... 8月2日,在全国首届护理AI创新应用技能挑战赛决赛中,我院骨三科陈美玲的作品《创新聚力赋能发展——A...
微信内存一下就少了10G上热搜... 站长之家(ChinaZ.com)8月6日 消息:今日,微博热搜榜上#微信内存一下子就少了10G#的话...
我是宁波技能冠军④丨这些技能高... 前言 从工业设备控制(PLC)、工业机器人系统操作等“硬核”制造能力,到人工智能训练、网络安全等高科...
聚焦人工智能产业链 山东蓄力打... 中新网济南8月6日电 (记者 沙见龙)“这项体系如同人工智能产业的‘中央厨房’,能根据不同行业的差异...
2025未来科学大奖揭晓,他们... 科学之光照亮人类未来。6日,备受关注的2025未来科学大奖揭晓。这个夏天,“高冷”的基础研究再次变得...
为什么CA需要有《电子认证服务... 来源:SSL_SecureSocketLayer 1. CA是什么?—— 数字世界的「信任基石」 C...
2025 年 2 款华为会议记... 现在远程会议越来越多,不管是企业还是个人,都需要能快速整理会议记录的工具。我作为科技产品体验师,选了...