斩获大语言模型微调数据竞赛冠军,天翼云AI技术能力再获认可!
创始人
2024-01-09 03:58:41
0

原标题:斩获大语言模型微调数据竞赛冠军,天翼云AI技术能力再获认可!

近日,天池FT-Data Ranker竞赛落下帷幕,天翼云智能边缘事业部AI团队(后称天翼云AI团队)凭借在大语言模型(LLM)训练数据增强方面的卓越研究,荣获大语言模型微调数据竞赛——7B模型赛道冠军

FT-Data Ranker竞赛是一场面向大语言模型研究、以数据为中心的竞赛,吸引了包括来自北京大学、Hantec等知名高校、研究机构、企业的近400支优秀队伍参赛。天翼云在激烈的角逐中脱颖而出,展现出强大的技术创新能力。

数据在大语言模型(LLM)的能力打造中发挥着至关重要的作用,更好地构建和处理数据集成为大语言模型领域研究的重点。本次竞赛的核心在于独立、精确地评估和提升数据集质量,加速形成基准驱动的数据开发流程,增强大语言模型数据处理能力,提高该领域对数据质量和数据优化的理解能力。本次竞赛特别关注微调(Fine-tuning)阶段的数据,要求参赛者对原始数据集进行清洗、过滤和增强,利用新数据集对特定模型进行微调,并在测试集上进行性能排名。

面向竞赛通用选择任务,天翼云AI团队自主构建了数据处理流程,使用多个文档去重、字符串过滤算子对低质的大规模原始语料进行处理,从而获得高质量的模型训练数据;同时,面向文本摘要任务,天翼云AI团队创新地采用范式迁移(Paradigm Transfer)和模型能力蒸馏(Distillation)的方法,在设定模型随机性为0的前提下,利用生成式模型将原始语料中的问答进行数据处理和迁移,作为摘要数据,间接扩充训练数据。基于以上方法和策略,团队在原始语料基础上构建了一个内容丰富、多样化的任务训练集,帮助模型更好地学习和理解竞赛任务。该方案的创新性实用性得到了评委的高度认可。

本次竞赛团队采用的大语言模型训练数据增强技术,已在天翼云团队模型研发和生产业务中广泛应用。例如,在天翼云政务大模型“慧泽”的研发中,通过广泛采用训练数据增强策略和算法来提升模型的各项能力,使得“慧泽“具备了政务知识全面、意图理解能力强、应用广泛以及安全可靠等优势,可高效赋能政策咨询、政务导办、12345坐席辅助、智能办公等场景,助力提升城市治理水平。

未来,天翼云将继续推进人工智能相关技术创新以及实践应用,以更加全面、智能的产品与服务,赋能千行百业数字化转型。

相关内容

热门资讯

华能水电获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示华能水电(600025)新获得一项实用新型专利授权,专利名为“...
visionOS 26 全面升... IT之家 6 月 10 日消息,苹果公司在 visionOS 26 中,将对 Apple Visio...
苹果iOS 26发布 AirP... 快科技6月10日消息,今日,苹果正式发布全新操作系统iOS 26,为AirPods带来录音棚级录音和...
商业化路径渐明 家用机器人赛道... 人民财讯6月10日电,相比于还未见到商业化曙光的通用人形机器人,家用机器人赛道公司正在排队融资和IP...
小米SU7 Ultra又给中国... 太疯狂了!这次雷军又该被人酸了! 为什么?就因为小米SU7 Ultra又拿了个第一,而且是在目前大多...
2025网聚“合”力丨以“人工... 6月10-11日,2025年中国网络文明大会将在合肥启幕。这座“科里科气”的创新之城,正以人工智能技...
一批重大工程取得新进展 为经济... 央广网北京6月9日消息 据中央广播电视总台中国之声《新闻和报纸摘要》报道,连日来,一批重大工程取得新...
直击WWDC25:苹果系统视觉... 出品 | 搜狐科技 作者 | 张雅婷 6月10日消息,苹果举行年度全球开发者大会(WWDC 2025...
新华每日电讯:别把“韦神”的学... 一个4秒短视频,一段3句话的个人介绍,让一位朴实的青年教师在短短几天内涨粉2300万,一跃成为社交平...
英国金融监管机构与英伟达合作 ... 英国金融行为监管局(FCA)周一宣布与美国芯片制造商英伟达达成合作,将允许银行在安全环境中进行人工智...
海归科学家黄志伟:择安静一隅 ... “很多人说哈尔滨冬天冷,但正是这种气候能让人保持冷静,在年富力强的时候专心做好研究。”从海外归来入职...
Niantic Spatial... 编译/VR陀螺 以AR平台开发闻名的Niantic公司,近日分拆成立了专注于空间计算技术的新公司Ni...
谷歌All in AI的背后驱... 文 | 王智远 两个多小时,听完之后一个感受:信息量巨大。 谷歌和Alphabet的首席执行官桑达...
马斯克的“星链”已坠落近600... 今天,马斯克的“星链”卫星频繁坠落的消息在网上炸开了锅。这个原本被寄予厚望的全球互联网计划,突然变成...
和辉光电获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示和辉光电(688538)新获得一项实用新型专利授权,专利名为“...
自动行走、自动养护 智能造桥机... 湖北日报讯(记者林晶、通讯员周成臣 李鹏远)6月9日,合武高铁跨沪渝蓉高速公路特大桥上,4台智能造桥...
豪美新材获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示豪美新材(002988)新获得一项实用新型专利授权,专利名为“...
两部门:开展智能养老服务机器人... 6月9日电 据工信部网站消息,6月9日,工业和信息化部办公厅、民政部办公厅发布关于开展智能养老服务机...
小红书开源首个大模型dots.... 🤖 由 文心大模型 生成的文章摘要 上文介绍了社交平台小红书开源的大模型do 社交平台小红书,在...