根据图片识人、识物,钉钉AI升级多模态能力
创始人
2024-03-29 21:40:46
0

原标题:根据图片识人、识物,钉钉AI升级多模态能力

多模态、长文本与RPA(机器人流程自动化)技术,在AI应用的落地上又有新进展。

3月28日,钉钉AI助理迎来重要升级,正式上线图片理解、文档速读和工作流等产品能力。此次升级后,钉钉AI助理将拥有更强的视觉推理能力和长文本速读能力。在AI助理对话框,用户发送长文件、在线文档、网页链接、视频内容,即可进行多轮交互和智能问答。

资料显示,基于通义千问Qwen-VL-Max视觉理解模型,钉钉AI助理能够准确描述和识别图片信息,并进行信息推理、扩展创作、文字提取和翻译等;在收到用户发来的视频后,AI助理会根据视频内容生成字幕,提取关键词,并生成一份智能摘要,对于最高2GB的视频内容,仅需3分钟即可完成智能解读。

唤醒这些功能也并不复杂:用户在钉钉IM消息框或点击魔法棒按钮即可进入AI助理对话框。

从初步测试来看,钉钉新版AI助理,已经具备较为成熟的图片识别和智能对话能力。

如下图(左)所示,根据我们提供的照片,钉钉AI助理几乎瞬间认出了小猫的品种,并对该品种猫咪的特征和照片背景进行了简单描述;在没有任何文字提醒,以及照片内没有文字提示的情况下,钉钉AI助理准确识别了拍摄于上海迪士尼的城堡照片(如下图右)。

钉钉实测图片(下同)

多模态能力的加入,让AI助理更具实用性,例如翻译信息、提取文字等。

我们随手拍摄并上传了一张耳塞外包装(纯英文说明)图片。在识别产品品牌、功能等常规信息之外,钉钉AI助理在外包装明显破损的情况下,对英文说明进行了简单分析和翻译,并提取了关键词。令人感到意外的是,在密集的英文印刷中,AI识别出了模糊的NRR信息(降噪等级),并提示用户对此进行关注。

对于表情包和网络梗图,钉钉AI助理也展示出一定的识别和推理能力。

综合来看,基于通义千问Qwen-VL-Max视觉理解模型,钉钉AI助理能做的事情明显变多了。

公开资料显示,Qwen-VL-Max整体性能堪比GPT-4V和Gemini Ultra。在MMMU、MathVista等测评中超过业界所有开源模型,在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上超越GPT-4V,位于世界第一梯队水平。

不过,AI助理也不是全能的。从实测来看,未来它仍有大量提升空间。例如对影视剧中穿戴墨镜的人物,以及身着古装服饰的人物,钉钉AI有时无法精准识别。此外,对于“一个月才几百块,你玩什么命啊”这样较为晦涩的网梗,AI的理解能力也有待继续完善。

更新后,AI助理强化了文档速读和视频速读能力:用户上传相关的文件和视频,即可得到一份内容总结。

值得一提的是,根据不同需要,AI助理能生成各细分领域的助手,用户还能通过链接等形式和他人分享。例如“我的歌曲助手”:用户只需输入音乐和唱法风格等“诉求”,在约5分钟左右的时间里,AI就会自动生成歌曲,并发送至指定邮箱——初步来看,这些歌曲和音乐其实都有不错的完成度。

据公开资料,此次更新后,钉钉对“工作流”玩法也进行了升级。用户可以通过工作流,对AI执行任务的流程进行拆解和编排,主动接管完成相应操作,并打通外部系统数据和API能力,例如搭建能自动写脚本并生成视频的创作AI助理等。为降低用户的使用门槛,钉钉官方还将提供多种工作流模板。

相关内容

热门资讯

网易申请模型训练及图像评估相关... 金融界2025年7月5日消息,国家知识产权局信息显示,网易(上海)网络有限公司申请一项名为“模型训练...
安卓系统智能应用启用Mater... 2025-07-05 11:21:19 作者:狼叫兽 7月5日消息,据科技媒体报道,谷歌在安卓系...
“700xxxxxxxxxxx... “700xxxxxxxxxxxx”电话号码要来了! 为什么要开设 “700开头”的15位电话号码? ...
TikTok生态盛会:洛杉矶线... 6月11日,一场备受瞩目的盛会——“2025美国短视频线下达人选品展览会·洛杉矶站”在洛杉矶会展中心...
上海交大团队突破 AI 设计热... IT之家 7 月 6 日消息,上海交通大学领导的一支国际科研团队,在基于 AI 的超宽波段及波段选择...
联防联控 应急排涝!市城管局全... 7月5日,汕头台风预警信号升级为黄色,防风应急响应提升为III级。市城管局高度关注台风动态,及早部署...
雷军现身!小米YU7正式交付 7月6日下午,小米首款SUV YU7在58城同步开启交付,北京小米科技园举行首批车主交付仪式。小米集...
活动回顾 | 6月小手玩科学,... 当油滴在水中抱团时,是谁给了它们融合的勇气?彩色色素为何在透明液体里呈现出沉降的彩虹雨?当手柄按下时...
华为盘古团队回应AI模型抄袭争... DoNews7月6日消息,华为 6 月 30 日宣布开源盘古 7B 稠密和 72B 混合专家模型,但...
马丁特尼尔取得自动化的激光切割... 金融界2025年7月5日消息,国家知识产权局信息显示,深圳市马丁特尼尔技术有限公司取得一项名为“一种...
小米取得加湿器专利,提供一种柔... 金融界2025年7月5日消息,国家知识产权局信息显示,北京小米移动软件有限公司取得一项名为“加湿器”...
顶锋剃须刀取得剃须刀刀片安装组... 金融界2025年7月5日消息,国家知识产权局信息显示,泰州市顶锋剃须刀制造有限公司取得一项名为“一种...
心智观察所:独家对话|周露:生... 【对话/观察者网心智观察所】 在生命科学疆域疾驰的时代浪潮中,基因治疗正以前所未有的速度重塑着对抗...
北京6G实验室产业伙伴合作正式... 7月5日,2025全球数字经济大会“6G技术创新与产业发展峰会”在北京经济技术开发区(北京亦庄)通明...
华峰新材申请耐磨印花涂层布料及... 金融界2025年7月5日消息,国家知识产权局信息显示,福建华峰新材料有限公司申请一项名为“一种耐磨印...
告别合规“人海战术”,奇富科技... 记者 黄敏 6月20日,国家金融监督管理总局发布《商业银行市场风险管理办法》,银行业随即掀起了一场监...
Jacky Tsai:以波普艺... 今年5月,东风商业航天创新试验区的天际被一道烈焰划破。朱雀二号改进型遥二火箭带着“嫦娥奔月” 的斑斓...
厘清“刷脸”边界 筑牢人脸信息... 央视网消息(焦点访谈):人脸信息与人体的其他生物特征,如指纹、虹膜等与生俱来,具有唯一性。这些关键信...
前海梦工场很AI 20余家科创... 深圳新闻网2025年7月6日讯(深圳商报记者 范宏韬)7月4日,由前海深港青年梦工场主办、梦工场在园...
重庆城市科技学院人工智能与大数... 2025年5月10日,重庆城市科技学院27名学子共9支队伍参加“第十三届重庆市大学生程序设计大赛暨C...