喜报,天翼云荣获大语言模型微调数据竞赛冠军!
创始人
2024-01-08 07:06:15
0

原标题:喜报,天翼云荣获大语言模型微调数据竞赛冠军!

2023-12-18 14:28:57 作者:姚立伟

近日,天池FT-Data Ranker竞赛落下帷幕,天翼云智能边缘事业部AI团队(后称天翼云AI团队)凭借在大语言模型(LLM)训练数据增强方面的卓越研究,荣获大语言模型微调数据竞赛——7B模型赛道冠军。

FT-Data Ranker竞赛是一场面向大语言模型研究、以数据为中心的竞赛,吸引了包括来自北京大学、Hantec等知名高校、研究机构、企业的近400支优秀队伍参赛。天翼云在激烈的角逐中脱颖而出,展现出强大的技术创新能力。

数据在大语言模型(LLM)的能力打造中发挥着至关重要的作用,更好地构建和处理数据集成为大语言模型领域研究的重点。本次竞赛的核心在于独立、精确地评估和提升数据集质量,加速形成基准驱动的数据开发流程,增强大语言模型数据处理能力,提高该领域对数据质量和数据优化的理解能力。本次竞赛特别关注微调(Fine-tuning)阶段的数据,要求参赛者对原始数据集进行清洗、过滤和增强,利用新数据集对特定模型进行微调,并在测试集上进行性能排名。

面向竞赛通用选择任务,天翼云AI团队自主构建了数据处理流程,使用多个文档去重、字符串过滤算子对低质的大规模原始语料进行处理,从而获得高质量的模型训练数据;同时,面向文本摘要任务,天翼云AI团队创新地采用范式迁移(Paradigm Transfer)和模型能力蒸馏(Distillation)的方法,在设定模型随机性为0的前提下,利用生成式模型将原始语料中的问答进行数据处理和迁移,作为摘要数据,间接扩充训练数据。基于以上方法和策略,团队在原始语料基础上构建了一个内容丰富、多样化的任务训练集,帮助模型更好地学习和理解竞赛任务。该方案的创新性和实用性得到了评委的高度认可。

本次竞赛团队采用的大语言模型训练数据增强技术,已在天翼云团队模型研发和生产业务中广泛应用。例如,在天翼云政务大模型“慧泽”的研发中,通过广泛采用训练数据增强策略和算法来提升模型的各项能力,使得“慧泽“具备了政务知识全面、意图理解能力强、应用广泛以及安全可靠等优势,可高效赋能政策咨询、政务导办、12345坐席辅助、智能办公等场景,助力提升城市治理水平。

未来,天翼云将继续推进人工智能相关技术创新以及实践应用,以更加全面、智能的产品与服务,赋能千行百业数字化转型。

相关内容

热门资讯

七部门联合印发实施方案 医药工... 近日,工业和信息化部、商务部、国家卫生健康委等七部门联合印发《医药工业数智化转型实施方案(2025—...
手机=充电宝?10000mAh... 声音 | 小白 此前有消息称随着电池技术不断发展,预计接下来配备7000以上毫安时大电池的机型会更多...
月球独行,笑对绝境——动画版《... 在2022年的炎炎夏日,电影《独行月球》以其独特的科幻喜剧风格横空出世,由沈腾与马丽的精彩演绎,成功...
AI技术既能“上天”又能“下地... 当神舟十九号载人飞船返回舱在东风着陆场成功着陆时,中山大学航空航天学院教授张小虎非常激动。由他带领的...
超导电路新设计有望提升量子处理... 记者 张佳欣 据新一期《自然·通讯》杂志报道,美国麻省理工学院团队展示的全新超导电路设计,有望使量子...
千元预算享旗舰体验?荣耀80堪... 在科技飞速发展的当下,随着手机更新换代速度的加快,消费者换机的频率也随之提高,但频繁换机带来的经济压...
重现MIX荣光!曝小米屏下摄像... 快科技5月6日消息,博主数码闲聊站暗示,尽管小米现阶段没有推出屏下前摄的量产机型,但是相关技术一直在...
曝小米MIX 5已完成多轮技术... 【CNMO科技消息】早在2016年,小米就推出了MIX系列手机,试图打造真正的全面屏手机。最后一款M...
库卡、美的取得定子绝缘框架等相... 金融界2025年5月6日消息,国家知识产权局信息显示,库卡机器人(广东)有限公司、广东美的电气有限公...
OpenAI重组计划被迫改变 ... 财联社5月6日讯(编辑 夏军雄)当地时间周一(5月5日),人工智能(AI)研究公司OpenAI宣布,...
国产“强磁心脏”诞生!中科院突... 中国科学院电工研究所近日传来振奋人心的消息,王秋良院士领导的研究团队在超导磁体技术领域取得了重大突破...
磁组件:材料设计进入新时代 民生证券近日发布人形机器人材料需求系列报告之三:磁组件属于稀土永磁材料精深加工环节。生产工序较为繁杂...
山东豪迈取得用于撬块吊耳焊接设... 金融界2025年5月6日消息,国家知识产权局信息显示,山东豪迈机械制造有限公司取得一项名为“一种用于...
横店东磁申请四端式全硅基多结太... 金融界 2025 年 5 月 6 日消息,国家知识产权局信息显示,横店集团东磁股份有限公司申请一项名...
AI时代下的数智链主:趋势与展... 数字链主的竞争必然是全球性的。当前智能化进程不断突破行业门槛,正在对传统链主发动毁灭性的竞争。 当...
国内科研团队在人工智能领域取得... 近年来,国内科研团队在人工智能领域持续突破,以多维度创新成果推动技术边界拓展与产业应用深化,在基础算...
中科院发布智能科研平台:Sci... 在科技界的瞩目之下,中国科学院自动化研究所于近期举行的第八届数字中国建设峰会上,隆重推出了基于科学基...
宣威:警企携手打造智慧防控典范... 近年来,宣威市公安局丰华派出所在社会治理领域大胆创新,携手众成实业公司共同推出“科技联防”社会治理品...
纳芯微获得实用新型专利授权:“... 证券之星消息,根据天眼查APP数据显示纳芯微(688052)新获得一项实用新型专利授权,专利名为“多...
月球巨型陨石坑或存古老岩浆海遗... 5 月 6 日消息,据最新研究,月球南极-艾特肯(South Pole-Aitken,简称 SPA)...