7月以来,从国家互联网信息办公室、国家数据局等联合主办2025全球数字经济大会,到中国通信标准化协会大数据技术标准推进委员会牵头、联合行业专家共同编制《高质量数据集实践指南(1.0)》正式发布……高质量数据集的热度持续高企。这些经过加工分类的高质量数据集,在AI时代撬动的能量不可小觑。
■ 姜燕冰 浙江传媒学院浙江省社会治理与传播创新研究院研究员
随着全球数字经济大会的召开与《高质量数据集实践指南》的发布,“高质量数据集”已成为人工智能发展的核心议题。这不仅是技术问题,更是一场关于数据要素价值释放的深刻变革——数据实现了从附属品到核心资产的价值跃迁。
过去十年,AI发展曾陷入“算力至上”的迷思,而今高质量数据集的崛起标志着认知的颠覆。浙江大学刘渊教授指出:“没有高质量的数据就喂不出高质量的人工智能。”当DeepSeek等模型以数据质量取胜,业界终于清醒:数据并非算力的附属品,而是AI的“精粮”,是AI时代的“新基建”。国家数据局等17部门联合推动数据要素计划,正是将数据集提升至国家战略资源高度的关键一步。
目前我国高质量场景数据集产业还处于探索阶段,存在三大挑战:大模型厂商的定制化需求与通用数据供需错位,医疗、金融等高价值场景数据尤其稀缺;缺乏统一的质量评估体系,导致数据“含金量”参差不齐;企业“自采自用”模式盛行,数据孤岛现象阻碍价值释放,造成流通壁垒。
未来的竞争不仅是算法之争,更是数据生态之战——唯有打通数据“供得出、流得动、用得好”的全链条,才能让AI真正赋能千行百业。贵阳大数据交易所引入数据加工服务商,将原始数据炼成“金首饰”的模式值得推广;深圳、上海等地发放“语料券”、杭州百万级奖励政策以市场化手段激励开放共享。未来更多的破局之道在于制度创新与技术创新的双轮驱动。
上一篇:畅通清洁能源消纳通道