中国信通院魏亮:高质量数据集是AI发展的核心驱动力
创始人
2025-08-26 20:20:30
0

在8月26日于深圳举办的“2025人民数据大会”上,中国信息通信研究院副院长魏亮发表主旨演讲,强调高质量数据集建设是推动人工智能技术突破与产业落地的关键。他指出,随着大模型技术的加速迭代,数据已成为人工智能发展的核心要素,而多模态数据、具身智能数据、推理思维链数据和长视频数据是未来建设的重点方向。

数据飞轮效应:垂类模型与数据闭环的双向赋能

魏亮提出,高质量数据集的供给需从数据技术、数据工程和数据治理三方面协同推进。他以亚马逊的“数据飞轮”效应为例,阐释了垂类大模型与数据生产的良性循环:当垂类模型在生产中规模应用时,会持续生成高质量数据反哺模型训练,形成“数据-模型-应用”的闭环。这一模式已在金融风控、医疗诊断等领域验证,例如宁德时代通过AI数据治理平台,将数据清洗效率提升50%,模型决策准确率提高30%。

四大核心数据类型:支撑AI应用场景升级

  1. 多模态数据:自然资源部第三大地测量队构建的三维地表动态监测数据集,整合文本、图像、三维模型,将自然资源要素提取时间从天级缩短至小时级,目标识别准确率提升90%。
  2. 具身智能数据:浪潮云洲开发的工业具身智能体,通过多模态感知与任务规划,解决复杂工业环境中的自主作业问题,设备适应性提升40%,工艺准备时间缩短60%。
  3. 推理思维链数据:新加坡管理大学提出的GCoT框架,首次将思维链提示学习应用于无文本图数据,在少样本分类任务中准确率超越现有方法,为复杂决策场景提供新思路。
  4. 长视频数据:自动驾驶领域通过自动化标注工具(如CVAT、Labelbox)结合人工审核,确保长视频数据的时间连贯性与标注准确性,支撑行为识别与事件预测模型训练。

技术、工程、治理:三位一体的数据供给体系

魏亮指出,数据技术需突破新一代标注与合成技术。例如,DeepSeek采用数据蒸馏技术,从低质数据中提炼有效信息,结合强化学习构建推理型训练集。数据工程则强调全流程管理,中国信通院建立的“可信AI”数据集质量评估体系(ADAQ),涵盖12个一级指标和36个二级指标,确保数据从采集到应用的全程可控。数据治理方面,需平衡安全与合规,如联邦学习技术在医疗数据共享中的应用,既保护隐私又提升模型泛化能力。

行业应用:从“经验驱动”到“标准驱动”的转型

当前,垂类大模型已在金融、医疗等领域实现初步落地。例如,创略科技通过AI分析客户行为数据,将企业客户流失预警准确率提升至85%,交叉销售效率提高50%。然而,工业领域仍面临挑战,浪潮云洲通过构建“感知-决策-执行”工业化生态,将设备维护成本降低30%,但数据孤岛与实时性不足问题仍待解决。

未来展望:数据驱动AI进入新阶段

魏亮总结,随着“人工智能+”行动的深化,数据要素的价值将进一步释放。他呼吁产业界加强标准建设,推动数据技术、工程与治理的协同创新,共同构建“数据驱动”的智能生态。

相关内容

热门资讯

科技赋能,智慧监管!福保街道“... 深圳商报·读创客户端记者 徐丽 通讯员 何巧兰 郑涵 为彻底破解电动自行车管理难题,福田区福保街道创...
使用Llama.cpp在家中私... 虽然训练大语言模型可能需要数百万甚至数十亿美元的基础设施,但这些劳动成果往往比你想象的更容易获得。许...
老板电器取得燃气灶装置专利,冷... 金融界2025年8月26日消息,国家知识产权局信息显示,杭州老板电器股份有限公司取得一项名为“燃气灶...
贵阳大数据交易所携多项重磅成果... 8月26日,2025年中国国际大数据产业博览会媒体吹风会举行,记者从发布会上获悉,作为已连续十年参加...
【热点观察】数见未来,AI驱动... 今年初,DeepSeek横空出世,标志着AI大模型在技术领域的重大突破,为企业运营管控带来了全新的机...
湖北省纤维检验局:“科技+科普... 近日,在湖北省市场监管局主办的“矢志创新发展 建设科技强国”科技实验微短剧大赛中,湖北省纤维检验局及...
世界互联网大会文化遗产数字化论... 来源:市场资讯 (来源:澎湃新闻) 由世界互联网大会主办,陕西省人民政府承办的2025年世界互联网大...
呼和浩特生物疫苗产业强势崛起 华希生物疫苗生产车间 8月24日从呼和浩特市科技局获悉,内蒙古华希生物科技有限公司(以下简称“华希生...
电脑文件删除了怎么恢复?介绍常... 电脑文件删除了怎么恢复?当电脑文件不慎被删除后,许多人会感到焦虑和无助。实际上是有办法可以恢复这些被...
智慧物流进医院:6家大型医院智... 前言 当物流从 “人力驱动” 迈向 “智慧驱动”,一场关于效率、安全与创新的变革正在各领域深度上演。...
搜狐号2025年8月网络侵权举... 为了维护搜狐号平台的秩序,保障健康积极的导向,搜狐号一直切实履行平台的主体责任,致力于打击各类违规文...
英伟达发布机器人“新大脑”Je... 英伟达发布最新机器人芯片Jetson Thor,号称机器人“新大脑”。速度提升7.5倍、配备128G...
探秘智慧牧场!科学传播交流活动... 8月23日,由北京科普发展与研究中心、中国农业科学院农业信息研究所、中国农业科学院科协、中国传媒大学...
榨干GPU性能,中兴Maria... 来源:市场资讯 (来源:量子位) 当大语言模型(LLM)走向千行百业,推理效率与显存成本的矛盾日益尖...
中国信通院魏亮:高质量数据集是... 在8月26日于深圳举办的“2025人民数据大会”上,中国信息通信研究院副院长魏亮发表主旨演讲,强调高...
【2025数博会】数博会交流活... 8月26日,2025年中国国际大数据产业博览会媒体吹风会举行。记者从吹风会获悉,本届数博会交流活动预...
联影医疗:公司自主研发光子计数... 本报讯 (记者金婉霞)8月26日,记者从上海联影医疗科技股份有限公司(以下简称“联影医疗”)获悉,由...
原创 马... 《Her》是曾经上映的一部电影,讲述了有血有肉的人类和一堆代码构成的人工智能之间的爱情。 最近, ...
世界互联网大会文化遗产数字化论... 8月26日,2025年世界互联网大会文化遗产数字化论坛新闻发布会在北京召开。陕西网记者从会上获悉,世...
马斯克新公司:“巨硬”!硬刚微... 来源:市场资讯 (来源:智东西) 智东西 作者 王涵 编辑 漠影 智东西8月25日消息,两天前,马...