中国信通院魏亮：高质量数据集是AI发展的核心驱动力

创始人

2025-08-26 20:20:30

0次

在8月26日于深圳举办的“2025人民数据大会”上，中国信息通信研究院副院长魏亮发表主旨演讲，强调高质量数据集建设是推动人工智能技术突破与产业落地的关键。他指出，随着大模型技术的加速迭代，数据已成为人工智能发展的核心要素，而多模态数据、具身智能数据、推理思维链数据和长视频数据是未来建设的重点方向。

数据飞轮效应：垂类模型与数据闭环的双向赋能

魏亮提出，高质量数据集的供给需从数据技术、数据工程和数据治理三方面协同推进。他以亚马逊的“数据飞轮”效应为例，阐释了垂类大模型与数据生产的良性循环：当垂类模型在生产中规模应用时，会持续生成高质量数据反哺模型训练，形成“数据-模型-应用”的闭环。这一模式已在金融风控、医疗诊断等领域验证，例如宁德时代通过AI数据治理平台，将数据清洗效率提升50%，模型决策准确率提高30%。

四大核心数据类型：支撑AI应用场景升级

多模态数据：自然资源部第三大地测量队构建的三维地表动态监测数据集，整合文本、图像、三维模型，将自然资源要素提取时间从天级缩短至小时级，目标识别准确率提升90%。
具身智能数据：浪潮云洲开发的工业具身智能体，通过多模态感知与任务规划，解决复杂工业环境中的自主作业问题，设备适应性提升40%，工艺准备时间缩短60%。
推理思维链数据：新加坡管理大学提出的GCoT框架，首次将思维链提示学习应用于无文本图数据，在少样本分类任务中准确率超越现有方法，为复杂决策场景提供新思路。
长视频数据：自动驾驶领域通过自动化标注工具（如CVAT、Labelbox）结合人工审核，确保长视频数据的时间连贯性与标注准确性，支撑行为识别与事件预测模型训练。

技术、工程、治理：三位一体的数据供给体系

魏亮指出，数据技术需突破新一代标注与合成技术。例如，DeepSeek采用数据蒸馏技术，从低质数据中提炼有效信息，结合强化学习构建推理型训练集。数据工程则强调全流程管理，中国信通院建立的“可信AI”数据集质量评估体系（ADAQ），涵盖12个一级指标和36个二级指标，确保数据从采集到应用的全程可控。数据治理方面，需平衡安全与合规，如联邦学习技术在医疗数据共享中的应用，既保护隐私又提升模型泛化能力。

行业应用：从“经验驱动”到“标准驱动”的转型

当前，垂类大模型已在金融、医疗等领域实现初步落地。例如，创略科技通过AI分析客户行为数据，将企业客户流失预警准确率提升至85%，交叉销售效率提高50%。然而，工业领域仍面临挑战，浪潮云洲通过构建“感知-决策-执行”工业化生态，将设备维护成本降低30%，但数据孤岛与实时性不足问题仍待解决。

未来展望：数据驱动AI进入新阶段

魏亮总结，随着“人工智能+”行动的深化，数据要素的价值将进一步释放。他呼吁产业界加强标准建设，推动数据技术、工程与治理的协同创新，共同构建“数据驱动”的智能生态。

上一篇：【2025数博会】数博会交流活动预计发布数字经济领域最新成果64项

下一篇：探秘智慧牧场！科学传播交流活动解锁 AI养殖新体验

热门资讯

科技赋能，智慧监管！福保街道“... 深圳商报·读创客户端记者徐丽通讯员何巧兰郑涵为彻底破解电动自行车管理难题，福田区福保街道创...

使用Llama.cpp在家中私... 虽然训练大语言模型可能需要数百万甚至数十亿美元的基础设施，但这些劳动成果往往比你想象的更容易获得。许...

老板电器取得燃气灶装置专利，冷... 金融界2025年8月26日消息，国家知识产权局信息显示，杭州老板电器股份有限公司取得一项名为“燃气灶...

贵阳大数据交易所携多项重磅成果... 8月26日，2025年中国国际大数据产业博览会媒体吹风会举行，记者从发布会上获悉，作为已连续十年参加...

【热点观察】数见未来，AI驱动... 今年初，DeepSeek横空出世，标志着AI大模型在技术领域的重大突破，为企业运营管控带来了全新的机...

湖北省纤维检验局：“科技＋科普... 近日，在湖北省市场监管局主办的“矢志创新发展建设科技强国”科技实验微短剧大赛中，湖北省纤维检验局及...

世界互联网大会文化遗产数字化论... 来源：市场资讯（来源：澎湃新闻）由世界互联网大会主办，陕西省人民政府承办的2025年世界互联网大...

呼和浩特生物疫苗产业强势崛起华希生物疫苗生产车间 8月24日从呼和浩特市科技局获悉，内蒙古华希生物科技有限公司（以下简称“华希生...

电脑文件删除了怎么恢复？介绍常... 电脑文件删除了怎么恢复？当电脑文件不慎被删除后，许多人会感到焦虑和无助。实际上是有办法可以恢复这些被...

智慧物流进医院：6家大型医院智... 前言当物流从 “人力驱动” 迈向 “智慧驱动”，一场关于效率、安全与创新的变革正在各领域深度上演。...

搜狐号2025年8月网络侵权举... 为了维护搜狐号平台的秩序，保障健康积极的导向，搜狐号一直切实履行平台的主体责任，致力于打击各类违规文...

英伟达发布机器人“新大脑”Je... 英伟达发布最新机器人芯片Jetson Thor，号称机器人“新大脑”。速度提升7.5倍、配备128G...

探秘智慧牧场！科学传播交流活动... 8月23日，由北京科普发展与研究中心、中国农业科学院农业信息研究所、中国农业科学院科协、中国传媒大学...

榨干GPU性能，中兴Maria... 来源：市场资讯（来源：量子位）当大语言模型（LLM）走向千行百业，推理效率与显存成本的矛盾日益尖...

中国信通院魏亮：高质量数据集是... 在8月26日于深圳举办的“2025人民数据大会”上，中国信息通信研究院副院长魏亮发表主旨演讲，强调高...

【2025数博会】数博会交流活... 8月26日，2025年中国国际大数据产业博览会媒体吹风会举行。记者从吹风会获悉，本届数博会交流活动预...

联影医疗：公司自主研发光子计数... 本报讯（记者金婉霞）8月26日，记者从上海联影医疗科技股份有限公司（以下简称“联影医疗”）获悉，由...

原创马... 《Her》是曾经上映的一部电影，讲述了有血有肉的人类和一堆代码构成的人工智能之间的爱情。最近， ...

世界互联网大会文化遗产数字化论... 8月26日，2025年世界互联网大会文化遗产数字化论坛新闻发布会在北京召开。陕西网记者从会上获悉，世...

马斯克新公司：“巨硬”！硬刚微... 来源：市场资讯（来源：智东西）智东西作者王涵编辑漠影智东西8月25日消息，两天前，马...