阿里云通义开源首个多模态推理模型QVQ,视觉推理比肩OpenAI o1
创始人
2024-12-25 17:21:00
0

潮新闻客户端 记者 张云山

12月25日,阿里云通义千问发布业界首个开源多模态推理模型QVQ-72B-Preview。QVQ展现出超预期的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。多项评测数据显示,QVQ超越了此前的视觉理解模型「开源王者」Qwen2-VL,整体表现与「满血版」OpenAI o1、Claude3.5 Sonnet等推理模型相当。目前,开发者可在魔搭社区和HuggingFace平台上直接体验。

大模型

人类的推理能力植根于语言思维和视觉记忆中,正因此,利用视觉理解增强大模型推理能力,成为AI技术的前沿探索之一。一个月前,通义发布AI推理模型QwQ-32B-Preview,即斩获SuperCLUE的AI推理模型榜单「全球开源冠军」;如今,通义团队在Qwen2-VL-72B开源模型基础上,研发出多模态推理模型QVQ-72B-Preview,可实现更仔细的逐步推理,视觉推理能力也显著进步,在解决复杂问题时表现惊艳。

在考察模型视觉理解及推理的MMMU评测中,QVQ取得了70.3分,水平已达大学级别;在聚焦数学的视觉推理测试MathVista中,QVQ得分超过OpenAI o1,印证了其强大的图形推理能力;在更具多样性和学科广度的MathVison评测中,QVQ表现超越Claude3.5及GPT4o,说明QVQ更擅长解决真实数学问题;在奥赛级别的OlympiadBench基准测试中,QVQ也展现了出色的视觉推理能力。

QVQ是一个会基于视觉进行深度思考推理的大模型。QVQ不但能感知更准确的视觉内容,并据此作出更细致的分析推理,还会质疑自身假设,仔细审视其推理过程的每一步,经过深思熟虑后给出最后结论。QVQ可以轻松识别“梗图”内涵;看真实照片可合理推断出物体个数及高度等信息;在面对数学、物理、化学等各科学领域难题,QVQ能像人甚至科学家一样,给出思考过程和准确答案。

目前,QVQ-72B-Preview已在魔搭社区和HuggingFace等平台上开源,开发者可上手体验。据了解,一个月前开源的推理模型QwQ受到全球开发者热捧,一发布就登上HuggingFace模型趋势榜榜首。截至目前,通义千问Qwen的衍生模型数突破7.8万个,已超越Llama成为全球规模最大的AI模型群。

视觉模型解析

解析过程

“转载请注明出处”

相关内容

热门资讯

特伦斯电气取得插销式扎带专利,... 金融界2025年7月18日消息,国家知识产权局信息显示,浙江特伦斯电气有限公司取得一项名为“一种插销...
海信视像获得发明专利授权:“问... 证券之星消息,根据天眼查APP数据显示海信视像(600060)新获得一项发明专利授权,专利名为“问答...
洋旺机电取得轧机用板带夹送矫直... 金融界2025年7月18日消息,国家知识产权局信息显示,石家庄洋旺机电技术有限公司取得一项名为“一种...
AI超级联赛,何以落户广西? 中新网南宁7月18日电(记者 杨陈)近期全国各地高温热浪持续。在广西南宁,即将于7月19日启动的AI...
REDMI 15C曝光,多款新... 最近,关于REDMI后续新机的消息开始陆续出现。 最新的消息显示,一款型号为 2508CRN2BC ...
机器狗有什么作用?看完这些应用... 近日,一则“国产四足机器人打破沉寂十年世界纪录”的新闻,再次引发全球对国产四足机器人的关注。无独有偶...
原创 两... 现如今消费者对“性价比”的追求愈发极致,一加ACE5以旗舰级配置下放至2000元档的策略,成为202...
龙江森工集团:“一棚果”结出产... 人民网哈尔滨7月18日电 盛夏时节,龙江森工集团林区各地的设施棚室内生机盎然,一颗颗即将成熟的果实缀...
上海天文馆推暑期档重磅特展:听... 今天上午,上海天文馆B1临展厅,金石声划破静默,20片陨铁切片在磬锤敲击下震颤,清越悠长的音阶层层回...
奠基开工!延庆再建低空技术新基... 7月18日,“低空技术智能组装及配套设施项目”开工奠基仪式在中关村延庆园举行。项目的启动标志着园区继...
东丽这个社区开展“青少年探秘机... 随着科技的飞速发展,机器人逐渐走进了青少年的生活。手机中的语音助手、电视上的智能棋手,甚至是孩子们手...
北京大学国际医院成立预住院中心... 7月18日,北京大学国际医院成立预住院中心。该中心通过整合术前检验、麻醉评估、健康宣教等关键环节,将...
国内首台国产A320五级飞行训... 7月18日,春秋航空携手本土民航科技企业莱特科技,正式交付国内首台国产A320五级飞行训练设备,以丰...
月球车模型制作活动在涡阳县博物... 为纪念1969年7月20日人类第一次登月成功,每年的7月20日被定为人类月球日。中国人“九天揽月”的...
Roblox更新失败,更新不了... 当玩家沉浸于Roblox这个广受赞誉的创意虚拟空间时,时常面临更新失败,更新不了或无法完成升级等困扰...
安卓部门负责人:计科专业需“重... IT之家 7 月 18 日消息,据《商业内幕》今日报道,谷歌安卓部门负责人 Sameer Samat...
快应用智慧服务生态支持智能体一... 随着人工智能技术的快速发展,AI智能体正逐步成为新一代服务交互的核心形态。与此同时,开发者对高效、轻...
再造一个鲁塘矿区!湖南郴州微晶... 记者近日从湖南省地质院下属湖南省地球物理地球化学调查所(以下简称“湖南省地质院物化所”)获悉,该所通...
原创 i... 在今年的iOS 26发布之前,国外小有名气的视频账号FrontPageTech(简称fpt.)连发了...
适航标准再进一步!T1400无... 7月15日至18日,中国民.航局型号合格审查组专家在哈尔滨组织召开联合飞机《T1400型无人直升机系...