340B险胜70B,Kimi机器人贴脸“嘲讽”英伟达新开源模型
创始人
2024-06-19 13:40:57
0

一水 发自 凹非寺

量子位 | 公众号 QbitAI

排名超过Llama-3-70B,英伟达Nemotron-4 340B问鼎竞技场最强开源模型!

前两天,英伟达突然开源了其通用大模型Nemotron的3400亿参数版本。

就在最近,竞技场更新了排名情况:

胜率热图显示,Nemotron-4 340B对阵Llama-3-70B的胜率为53%

究竟Nemotron-4 340B表现如何?接下来一起看看。

新模型最新战绩

简单回顾一下,英伟达上周五突然宣布开源Nemotron-4 340B,该系列包括基础模型、指令模型和奖励模型,用于生成训练和改进LLM的合成数据。

Nemotron-4 340B一经发布便瞬时登顶Hugging Face RewardBench 榜一

紧接着,竞技场新近公布了Nemotron-4 340B的一系列测评结果。

长文本查询(长度>=500个token)中,Nemotron-4 340B排在第5位,超过Claude 3 Sonnet及Qwen 2-72B等主流开源模型。

处理硬提示方面,Nemotron-4 340B超越了Claude 3 Sonnet和Llama3 70B-Instruct,显示出其在应对复杂和高难度查询时的卓越能力。

整体性能评估中,Nemotron-4 340B的评分和稳定性均处于中上水平,超越了多款知名开源模型。

概括一下,Nemotron-4 340B已经取得了不错的战绩,直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,有时甚至可以和GPT-4一较高下。

其实,以前这个模型就曾登上大模型竞技场LMSys Chatbot Arena,当时它的别名是june-chatbot

具体来说,这个模型支持4K上下文窗口、50多种自然语言和40多种编程语言,训练数据截止到2023年6月。

训练数据方面,英伟达采用了高达9万亿个token。其中,8万亿用于预训练,1万亿用于继续训练以提高质量。

BF16精度下,模型的推理需要8块H200,或16块H100/A100 80GB。如果是在FP8精度下,则只需8块H100。

值得一提的是,指令模型的训练是在98%的合成数据上完成的。

而合成数据无疑是Nemotron-4 340B的最大亮点,它有可能彻底改变训练LLM的方式。

合成数据才是未来

面对最新排名,兴奋的网友们突然咂摸出一丝不对劲:

用340B对战70B,而且还是险胜,这事儿有点说不过去吧!

就连机器人Kimi也对此开启了“嘲讽”模式:

英伟达这波操作,参数大得像宇宙,性能却跟Llama-3-70B肩并肩,科技界的”大号小能”啊!

对此,在英伟达负责AI模型对齐和定制的Oleksii Kuchaiev拿出了关键法宝:

是的,Nemotron-4 340B商用友好,支持生成合成数据

高级深度学习研究工程师Somshubra Majumdar对此表示大赞:

你可以用它(免费)生成你想要的所有数据

这一突破性进展,标志着AI行业的一个重要里程碑——

从此,各行各业都无需依赖大量昂贵的真实世界数据集了,用合成数据,就可以创建性能强大的特定领域LLM!

那么,英伟达具体是如何实现的呢?

一句话概括,这与它开源通常不发布的奖励模型有关。

生成高质量合成数据不仅需要优秀的指导模型,还需根据特定需求进行数据筛选。

通常,使用同一模型作为评分者(LLM-as-Judge);但在特定情况下,采用专门的奖励模型(Reward-Model-as-Judge)进行评估更为合适。

而Nemotron-4 340B指令模型可以生成高质量的数据,然后奖励模型可以过滤掉多个属性的数据。

它会根据有用性、正确性、一致性、复杂性和冗长性这5个属性,对响应评分。

另外,研究者可以使用自己的专用数据,再结合HelpSteer2数据集,定制Nemotron-4 340B基础模型,以创建自己的指令或奖励模型。

回到一开头和Llama-3-70B的对战,Nemotron-4 340B拥有更宽松的许可,或许这才是它的真正价值所在。

毕竟数据短缺早已成为业内普遍痛点。

据Epoch研究所的AI研究员Pablo Villalobos预测,到2024年年中,对高质量数据的需求超过供给的可能性为50%,到2026年发生这种情况的可能性为90%。

新的预期显示,这种短缺风险将延迟至2028年。

合成数据才是未来正逐渐成为行业共识……

模型地址:

https://huggingface.co/nvidia/Nemotron-4-340B-Instruct

参考链接:

[1]https://x.com/abrichr/status/1802510103557382341

[2]https://x.com/omarsar0/status/1802024352851878296

[3]https://x.com/lmsysorg/status/1802836187511713933

[4]https://x.com/reach_vb/status/1801907371507097622

量子位年度AI主题策划正在征集中!

欢迎投稿专题一千零一个AI应365行AI落地方案

或与我们分享你在寻找的AI产品,或发现的AI新动向

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

相关内容

热门资讯

百镜出道,C位依旧:WAIC顶... 来源:雷科技 如果说 WAIC 2025 是今年 AI 硬件的「集体高考」,那 Rokid Glas...
韩媒:韩国扶持五大联合体开发“... 综合韩联社、《朝鲜日报》和《京乡新闻》等韩媒报道,韩国政府4日正式选定NAVER Cloud、Ups...
录取通知书的“飞驰”之路 7月盛夏,安徽省近50万封承载着无数学子青春梦想与家庭期盼的高考录取通知书,正从四面八方“飞驰”向它...
凡知智造取得恒温核酸扩增分析仪... 金融界2025年8月6日消息,国家知识产权局信息显示,山东凡知智造医药科技有限公司取得一项名为“一种...
原创 离... [撒花] 随着科技的不断发展,“仿人形机器人”也变的越来越成熟了,AI的加持也让这些机器人变的更加智...
当AI化身“全能助手”,人类的... 正在屏幕前玩手机的你 有没有过这样的体验? 遇到不懂的问题 第一反应不是翻书思考 而是脱口而出“嘿 ...
珠海创信电子取得电路板用锡膏检... 金融界2025年8月6日消息,国家知识产权局信息显示,珠海创信电子有限公司取得一项名为“一种电路板用...
NBN Co转投亚马逊柯伊伯计... 来源:C114通信网 C114讯 北京时间8月6日晚间消息(蒋均牧)NBN Co与亚马逊达成协议,通...
石景山这家医院药品有了“电子身... “窗口不用一盒盒扫码吗?取药几乎不用排队,这速度真给力!”在北京大学首钢医院门诊药房,刚取到药的患者...
电力数据“会说话” 点亮智慧新... 本文转自【新华社】 新华社北京8月6日电 《经济参考报》8月6日刊发记者邓林如采写的文章《电力数据“...
国能新疆红沙泉二号矿实现纯电无... 近日,在国家能源集团新疆红沙泉二号露天煤矿(以下简称“红二矿”),58台无人驾驶矿卡正高效运转,其中...
普天科技:致力数据治理领域打造... 金融界8月6日消息,有投资者在互动平台向普天科技提问:公司相关产品或技术有哪些能为人工智能赋能?谢谢...
DeepMind发布Genie... 来源:至顶网 尽管目前还没有人找到通过生成式人工智能赚钱的可靠方法,但这并没有阻止Google D...
【喜讯】骨三科陈美玲在全国竞赛... 8月2日,在全国首届护理AI创新应用技能挑战赛决赛中,我院骨三科陈美玲的作品《创新聚力赋能发展——A...
微信内存一下就少了10G上热搜... 站长之家(ChinaZ.com)8月6日 消息:今日,微博热搜榜上#微信内存一下子就少了10G#的话...
我是宁波技能冠军④丨这些技能高... 前言 从工业设备控制(PLC)、工业机器人系统操作等“硬核”制造能力,到人工智能训练、网络安全等高科...
聚焦人工智能产业链 山东蓄力打... 中新网济南8月6日电 (记者 沙见龙)“这项体系如同人工智能产业的‘中央厨房’,能根据不同行业的差异...
2025未来科学大奖揭晓,他们... 科学之光照亮人类未来。6日,备受关注的2025未来科学大奖揭晓。这个夏天,“高冷”的基础研究再次变得...
为什么CA需要有《电子认证服务... 来源:SSL_SecureSocketLayer 1. CA是什么?—— 数字世界的「信任基石」 C...
2025 年 2 款华为会议记... 现在远程会议越来越多,不管是企业还是个人,都需要能快速整理会议记录的工具。我作为科技产品体验师,选了...