获奖只是新的起点——访科大讯飞董事长刘庆峰
创始人
2024-06-25 12:41:30
0

记者:获得国家科学技术进步奖一等奖,无论对企业还是对您个人,都是一件大事,请您谈谈此刻的感受。

刘庆峰:非常激动,也非常荣幸。这对于科大讯飞来说,是一个阶段性总结,也是新的开始。

记者:不积跬步无以至千里。科研攻关不是百米赛跑,而是一场马拉松。请简要介绍一下科大讯飞在多语种智能语音技术科研上克服了怎样的困难,取得了哪些突破性成果?

刘庆峰:持续攻关多年,科大讯飞攻克了多个技术难题,并打破美国技术封锁,提出了四个方面的技术创新。

创新点一,是复杂语音信号解耦建模关键技术突破。

语音识别研究中最具挑战的是远场、噪声、多人语音混叠等现象导致的“鸡尾酒会”效应典型难题。

科大讯飞提出了多通道语音信号时空分离建模方法和多维度语音属性解耦表征方法,实现语音信号中内容、噪声等高度耦合的多维属性特征解耦,解决了“鸡尾酒会”的难题,使复杂场景下语音识别准确率得到重大突破。

创新点二,是多语种共享建模关键技术突破。

为了应对多语种技术“卡脖子”问题,必须解决小语种智能语音系统构建所面临的知识匮乏、训练数据稀缺等难题。

科大讯飞设计了全新的多语种通用音素体系和基本语言单元,实现多语种统一音素韵律体系的构建,又通过基于元学习的多语种预训练和基于语族分组的多语种共享建模,显著提升了小语种语音系统性能。

相关技术在2021年的国际低资源多语种语音识别竞赛OpenASR中获得15个语种受限赛道和7个语种非受限赛道的冠军。

创新点三,是语音语义联合建模关键技术突破。

复杂应用场景下语音交互、语音翻译面临着深层次语义理解困难、专业性不足等问题。

科大讯飞提出语音语义互增强的鲁棒口语理解技术,有效提升语音交互、语音翻译等复杂场景的语义理解准确率;提出多源知识增强的可信文本生成技术,提升专有词汇及领域知识引用的准确率。

创新点四,是国产异构硬件平台训练及推理加速关键技术突破。

国外高端智算芯片断供后,使用国产芯片开展智能语音算法模型训练和推理面临性能低、适配难等问题。

科大讯飞提出硬件亲和的变长输入算子融合和联合统一量化感知训练技术,通过软硬件协同优化的动态张量算子自动融合方法,实现对语音等变长输入的训练性能优化达到国际主流芯片同等水平;通过多硬件联合的量化计算模拟,达到模型单次训练后可在不同硬件平台上一键部署,解决了智能语音技术硬件平台的“卡脖子”问题。

记者:当前人工智能大模型快速发展,已形成“百模大战”局面,讯飞如何抓住机遇,依托多语种智能语音技术的优势,在“百模大战”中赢得先机?

刘庆峰:通用人工智能时代,科大讯飞多语种智能语音关键技术中的创新和大模型技术相互补充、相互促进。

语音属性解耦、语音信号时空分离等技术突破,可以将语音信号经过编码后输入到大语言模型,显著提升语音大模型的效果。2024年1月30日,科大讯飞就基于上述技术融合路线发布了星火语音大模型,显著超过了OpenAI的Whisper v3的语音大模型能力,Whisper v3的24个主要语种的平均识别率为82%,而星火语音大模型达到了90%。4月26日,科大讯飞又首发多情感超拟人合成和一句话声音复刻能力,使机器具备更加丰富的超拟人情绪感知和表达。

大模型技术可以在复杂语义理解、长文本建模能力上进一步提升语音识别、合成和翻译的效果,同时基于其强大的语义理解、知识问答、多轮对话、多模态建模能力,也能进一步大幅提升智能语音技术的使用场景和应用价值,支撑实现语音同传、自动客服、辅学答疑、家庭医生、虚拟员工、陪伴机器人、服务机器人等未来智能产品创新,带来巨大产业机会,加速通用人工智能时代的到来。

■ 本报记者 汪永安

相关内容

热门资讯

英媒:人工智能催生“独行企业家... 来源:滚动播报 (来源:千龙网) 英国《经济学人》周刊8月11日刊登题为《人工智能如何造就第一家单人...
交通大模型创新与产业联盟成立 中新网北京8月16日电 (记者 庞无忌)16日,交通大模型创新与产业联盟成立暨交通大模型建设启动会在...
浙江国弘绿能取得电池材料筛粉机... 金融界2025年8月16日消息,国家知识产权局信息显示,浙江国弘绿能科技有限公司取得一项名为“一种电...
唯一全程自主奔跑选手 天工获1... 来源:滚动播报 (来源:千龙网) 8月15日,迎来2025世界人形机器人运动会比赛首日,在上午的15...
恒之固取得涂布机防薄膜擦伤转轴... 金融界2025年8月16日消息,国家知识产权局信息显示,常州市恒之固金属构件有限公司取得一项名为“一...
全球首个!人形机器人运动会激情... 田径、格斗、足球……科幻片里机器人无所不能的未来图景,正在具象化。这个周末,全球首个以人形机器人为参...
国内首个法律领域垂直大模型发布... 法律工作者注意,一款“精准好用”的AI工具来了!8月16日,在广州(国际)科技成果转化天河基地国际会...
原创 银... 今天咱来聊聊天文学里一个超有意思的事儿!最近,科学家发现银河系边缘的恒星分布好像不太对劲,和咱们之前...
广东创新能力八连冠背后:产业提... 南方财经记者郑玮、郑康喜 广州报道 8月15日下午,广东省加快推进现代化产业体系建设第三场专题会议(...
大模型给自己当裁判并不靠谱!上... 上海交通大学王德泉课题组团队 投稿 量子位 | 公众号 QbitAI 大语言模型(LLM)正从工具进...
PLC数据采集网关支持哪些上网... PLC数据采集网关支持多种上网方式,常见的有以下几种: 5G/4G:支持5GRedCap、CAT4、...
原创 探... 家人们,今天咱必须得唠唠宇宙里那些奇葩到让人惊掉下巴的天体!这宇宙啊,就像个超大号的神秘盲盒,时不时...
首届世界人形机器人运动会盘点:... 封面新闻记者 付文超 8月17日,记者获悉,截至8月17日首届世界人形机器人运动会多项赛事诞生亮眼成...
苹果最好的长焦手机!曝iPho... 快科技8月16日消息,博主i冰宇宙爆料,iPhone 17 Pro的物理焦段是4倍,支持8倍光学品质...
宇树机器人“撞人逃逸”火到国外... 明敏 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 好家伙,宇树机器人“肇事逃逸”这瓜,在...
豪赌未来:陈立武、特朗普与In... 一、序章:那笔重新定义硅谷的交易 2025年8月14日,一条消息如同地震波,从华盛顿特区瞬间传遍了全...
大模型的两大缺点:知识污染与逻... 以下文章来源:人机与认知实验室 作者:刘伟 大模型凭借其强大的语言生成能力和广泛的知识储备...
ChatGPT负责人坦言:GP... IT之家 8 月 17 日消息,尽管 ChatGPT 已经推出了新的 GPT-5 模型,但其仍然存在...
夏日躬行路,青春实践歌 南京邮电大学 近日,南京邮电大学硕博实践团赴南京多家知名科技企业开展调研。实践团深入企业研发一线...
“绵阳造”人形机器人应用场景又... “抬起左手,再抬起右手……”近日,成都一家养老院来了一名特殊的新“护工”——一款由绵阳乐聚机器人技术...