模型之变如何引发数据质变?专家:数据与AI双引擎驱动智能未来
创始人
2025-09-14 02:01:39
0

来源:封面新闻

封面新闻记者 欧阳宏宇

可供大模型训练的人类数据越来越少,Scaling Law正在缓慢失效,智能的上限,如何再次突破?

9月12日,在2025 Inclusion·外滩大会“Data meets AI:智能时代的双引擎”见解论坛上,产学界的多位权威专家给出了新解法:数据驱动了AI发展,AI也让数据迎来了新一轮的进化,双引擎融合驱动才是演进方向。

如今,数据与AI双引擎协同发展的最新成果,为智能时代数据基础设施建设提供了参考和实践路径。与会专家表示,只有实现数据与AI的深度融合,建立完善的数据标准体系和质量评估框架,才能真正释放智能技术的巨大潜力,推动智能时代向更高层次发展。

高质量数据构建

成为大模型发展的新突破口

数据作为智能时代的第一引擎,正从辅助角色转变为核心驱动力。

复旦大学教授肖仰华指出,当前大模型发展正面临严峻的“数据墙”困境,无标签语料对模型性能提升的贡献日益减弱,更大规模数据带来的性能提升与所需的训练开销相比性价比显著降低。他认为,大模型数据科学需要从专家经验阶段发展到量化科学、直至自进化阶段。“大模型的数据实践需要屠呦呦式的研究,从海量杂乱的数据中提取出决定模型能力的关键成分”。

肖仰华分享了通过语法复杂度指标和累积分布采样方法筛选高质量语料的实践,实验表明,从100亿个token的财经语料中仅筛选20%的高质量数据进行训练,对模型进行持续预训练,相比于全量数据持续预训练,在领域问答任务上的准确率提升1.7%。

上海交通大学特聘教授翟广涛强调无论是精炼数据还是合成数据,都需要质量优先,而数据质量分析要从“体验质量”入手,考虑人的体验,也考虑机器的体验,进而在数据为中心的范式下进一步提升大模型性能。

海天瑞声CEO李科从产业实践角度分享了全球AI数据行业的发展趋势。他认为,数据产业正在经历从劳动密集型向技术密集型和知识密集型的重大转型。通过动捕数据、自动驾驶标注、思维链数据集等多个实际案例,李科展示了高质量数据如何服务千行百业。

上海库帕思科技有限公司董事长山栋明说,模型之变引领“数据质变”,他表示高质量数据集应满足VALID²(鲜活度、真实性、大样本、完整性、多样性、高知识密度)要求,并详细介绍了语料数据在方法论、基础设施和行业生态三个方面的体系化重构探索。

模型之变引发数据质变

技术创新推动数据价值释放

作为第二引擎,AI技术正在深刻改变数据处理和利用的方式。

光轮智能总裁杨海波表示,具身智能对数据的需求量是大语言模型和自动驾驶的上千倍。合成数据是实现具身智能Scaling Law的重要基础,他强调,合成数据必须满足四个必备条件:真实的物理交互、人在环的示范、场景足够丰富和数据闭环验证。杨海波认为,“站在岸上学不会游泳”,机器人需要进入物理可交互的环境去获取物理世界反馈来优化模型。

蚂蚁技术研究院数据智能实验室负责人赵俊博认为,下一代RL训练法则应该从“对与错”转向“好与更好”。“他探索的Rubric即Reward新机制,只需使用5k数据和1万条评分标准构建高效RL回路,就能摆脱对海量SFT数据的依赖,实现品味对齐。”他说,这种方法可以在人文、创意、情感等领域实现风格化生成,去除机器味道。

LanceDB CTO徐磊分享了开源多模态数据湖的创新实践。他介绍,与传统的Parquet、ORC等格式不同,新设计的Lance格式既是文件格式又是表格式,具备零拷贝数据演化和高效点查两大核心特性。徐磊举了Runway ML的案例,该公司将PB级视频数据导入Lance后,能够像使用SQL一样简单管理,实现30多位AI工程师在同一个主表上并行进行特征工程迭代。

NVIDIA互联网解决方案架构高级总监陈川介绍了驱动生成式AI的高效数据处理创新,分享了从文本到多模态的GPU加速解决方案。

谈及Data Infra如何重构,以及有何行业机遇。专家一致认为,随着计算范式的变化,数据处理技术无论主动还是被动,都需要重构与再定义。重构是为了解决已经面临的问题,再定义则是着眼于未来,解决可能面临的问题。

相关内容

热门资讯

模型之变如何引发数据质变?专家... 来源:封面新闻 封面新闻记者 欧阳宏宇 可供大模型训练的人类数据越来越少,Scaling Law正在...
服贸会上的文旅“新”体验 9月13日,在文旅服务专题展区经开区展台,小朋友和机器人下五子棋。 AI换装拍照、可穿戴设备、智能机...
星宇股份获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示星宇股份(601799)新获得一项实用新型专利授权,专利名为“...
固态电池概念持续火爆 是“实火... 沾上固态电池概念就涨,是近期A股市场的常态。 截至9月12日收盘,万得固态电池指数近20天已经上涨1...
星宇股份获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示星宇股份(601799)新获得一项实用新型专利授权,专利名为“...
马上评|上海这家成立仅一年的学... “人工智能是年轻的事业,也是年轻人的事业。”习近平总书记对上海人工智能发展寄予厚望。 市委书记陈吉宁...
专家:探索数值模拟+人工智能,... 新京报讯(记者张璐)作为服贸会专题论坛之一,“2025年北京国际大都市清洁空气与气候行动论坛”9月1...
引力波研究新突破:GW1908... 在宇宙深邃的幕布下,一场跨越数亿年的引力之舞正在悄然上演。两个黑洞在彼此引力的牵引下,如跳着华尔兹般...
南山智尚推出织物触觉智能手套 ... 中证报中证网讯(记者 张鹏飞)9月12日,南山智尚(300918)举办织物触觉智能手套新品发布会,机...
疯狂科学家制造的“电弧秀” 大科技2025-09-13 18:20:33 在1887年突破性地发明了交流电机之后,“疯狂科学家...
微信推出“后悔药”!网友:救了... 近日 微信团队发布了 安卓微信8.0.63内测版本 这是继iOS版本后的一次重要更新 这次更新虽然看...
农业银行公布“一种网络探测运维... 天眼查APP显示,近日,中国农业银行股份有限公司申请的“一种网络探测运维装置”专利公布。 摘要显示,...
大湾区科学论坛走进琴澳 促科创... 中新网广州9月12日电 (记者 王坚)据大湾区科学论坛秘书处12日消息,为期两天的大湾区科学论坛——...
天奥电子获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示天奥电子(002935)新获得一项发明专利授权,专利名为“一种...
中国细胞与基因治疗联盟成立 【中国细胞与基因治疗联盟成立】财联社9月13日电,中国细胞与基因治疗大会(CSGCT)9月12日开幕...
上海创智学院与无问芯穹共建院企... 这个九月,上海创智学院成立一年之际,第一届创智未来大会(“SII TechFest 2025”,后简...
北京地铁站有自助售药机了!分布... 在地铁通勤途中,若突感肠胃不适,或是在生理期遭遇腹痛难忍,该如何及时处置?此时,若能便捷购买到相应的...
触摸服务贸易的数字脉搏(服贸会... 站在首钢园微凉的晨光里,转头便撞进服贸会展馆的数字热浪——几日穿梭在展台间,最直观的感受是,数字化早...
荧光分子调色板提升手术精准度 精准识别人体器官结构、避免术中损伤,是降低手术风险的关键。9月9日,记者从复旦大学获悉,该校化学系教...
多筒混战,松下如何打出「大四洗... 一台就是一间洗衣房。 洗衣机行业的竞争格局,正在从单一洗净功能的比拼,转向智能、便捷、高效的立体化博...