在8月26日于深圳举办的“2025人民数据大会”上,中国信息通信研究院副院长魏亮发表主旨演讲,强调高质量数据集建设是推动人工智能技术突破与产业落地的关键。他指出,随着大模型技术的加速迭代,数据已成为人工智能发展的核心要素,而多模态数据、具身智能数据、推理思维链数据和长视频数据是未来建设的重点方向。
魏亮提出,高质量数据集的供给需从数据技术、数据工程和数据治理三方面协同推进。他以亚马逊的“数据飞轮”效应为例,阐释了垂类大模型与数据生产的良性循环:当垂类模型在生产中规模应用时,会持续生成高质量数据反哺模型训练,形成“数据-模型-应用”的闭环。这一模式已在金融风控、医疗诊断等领域验证,例如宁德时代通过AI数据治理平台,将数据清洗效率提升50%,模型决策准确率提高30%。
魏亮指出,数据技术需突破新一代标注与合成技术。例如,DeepSeek采用数据蒸馏技术,从低质数据中提炼有效信息,结合强化学习构建推理型训练集。数据工程则强调全流程管理,中国信通院建立的“可信AI”数据集质量评估体系(ADAQ),涵盖12个一级指标和36个二级指标,确保数据从采集到应用的全程可控。数据治理方面,需平衡安全与合规,如联邦学习技术在医疗数据共享中的应用,既保护隐私又提升模型泛化能力。
当前,垂类大模型已在金融、医疗等领域实现初步落地。例如,创略科技通过AI分析客户行为数据,将企业客户流失预警准确率提升至85%,交叉销售效率提高50%。然而,工业领域仍面临挑战,浪潮云洲通过构建“感知-决策-执行”工业化生态,将设备维护成本降低30%,但数据孤岛与实时性不足问题仍待解决。
魏亮总结,随着“人工智能+”行动的深化,数据要素的价值将进一步释放。他呼吁产业界加强标准建设,推动数据技术、工程与治理的协同创新,共同构建“数据驱动”的智能生态。