马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文
创始人
2024-03-29 15:59:29
0

原标题:马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文

机器之心报道

编辑:泽南

马斯克搞大模型,速度也奇快。

Grok 1 开源才刚有 10 天,Grok 1.5 就来了。

本周五早上,马斯克旗下的人工智能公司 xAI 正式推出了 Gork 大模型的最新版本 Grok-1.5。新一代模型实现了长上下文理解和高级推理能力,计划将在未来几天内向早期测试人员和 X 平台(前 Twitter)上的现有 Grok 用户提供。

上周一,马斯克刚刚开源了 3140 亿参数的混合专家(MoE)模型 Grok-1。通过开源 Grok-1 的模型权重和网络架构,Gork 项目已展示了 xAI 截至去年 11 月所取得的进展。在最新模型 Grok-1.5 中,Gork 又有了进一步提高。

能力与推理

Grok-1.5 最明显的改进之一是其在代码和数学相关任务中的性能。在 xAI 的测试中,Grok-1.5 在 MATH 基准上取得了 50.6% 的成绩,在 GSM8K 基准上取得了 90% 的成绩,这两个数学基准涵盖了广泛的小学到高中的竞赛问题。

此外,它在评估代码生成和解决问题能力的 HumanEval 基准测试中得分为 74.1%。

还记得昨天 Databricks 开源的通用大模型 DBRX 吗?当时的对比图表如下所示,看起来新版本 Grok 的提升是显著的。

就是不知这个大幅升级的 1.5 版会在什么时候开源?

长上下文理解

Grok-1.5 中的另一个重要升级是在其上下文窗口内可以处理多达 128K token 的长上下文。这使得 Grok 的容量增加到之前上下文长度的 16 倍,从而能够利用更长文档中的信息。

此外,该模型可以处理更长、更复杂的提示(prompt),同时在上下文窗口扩展时仍然能保持其指令跟踪能力。在大海捞针(NIAH)评估中,Grok-1.5 展示了强大的检索能力,可以在长度高达 128K token 的上下文中嵌入文本,实现完美的检索结果。

训练 Grok-1.5 的基础设施

xAI 进一步介绍了用于训练模型的算力设施。在大规模 GPU 集群上运行的先进大型语言模型(LLM)研究需要强大而灵活的基础设施。Grok-1.5 构建在基于 JAX、Rust 和 Kubernetes 的自定义分布式训练框架之上。该训练堆栈允许开发团队能够以最小的精力构建想法原型并大规模训练新架构。

在大型计算集群上训练 LLM 的主要挑战是最大限度提高训练作业的可靠性和正常运行时间。xAI 提出的自定义训练协调器可确保自动检测到有问题的节点,并将其从训练作业中剔除。工程师还优化了检查点、数据加载和训练作业重新启动等问题,以最大限度地减少发生故障时的停机时间。

展望

为了寻求替代微软支持的 OpenAI 和 Google 大模型的解决方案,马斯克去年推推动了 AI 创业公司 xAI,以创建他所说的「最大程度寻求真相的人工智能」 。去年 12 月,这家初创公司为 X 的 Premium+ 订阅者推出了 Grok。

xAI 表示,Grok-1.5 很快就会向早期测试者开放,其团队将继续改进 Grok。随着新版本推向公众,在未来几天 X 上的大模型将陆续推出一些新功能。

参考内容:

https://x.ai/blog/grok-1.5

https://www.reuters.com/technology/musks-xai-launch-improved-version-chatbot-2024-03-29/

相关内容

热门资讯

心智观察所:独家对话|周露:生... 【对话/观察者网心智观察所】 在生命科学疆域疾驰的时代浪潮中,基因治疗正以前所未有的速度重塑着对抗...
北京6G实验室产业伙伴合作正式... 7月5日,2025全球数字经济大会“6G技术创新与产业发展峰会”在北京经济技术开发区(北京亦庄)通明...
华峰新材申请耐磨印花涂层布料及... 金融界2025年7月5日消息,国家知识产权局信息显示,福建华峰新材料有限公司申请一项名为“一种耐磨印...
告别合规“人海战术”,奇富科技... 记者 黄敏 6月20日,国家金融监督管理总局发布《商业银行市场风险管理办法》,银行业随即掀起了一场监...
Jacky Tsai:以波普艺... 今年5月,东风商业航天创新试验区的天际被一道烈焰划破。朱雀二号改进型遥二火箭带着“嫦娥奔月” 的斑斓...
厘清“刷脸”边界 筑牢人脸信息... 央视网消息(焦点访谈):人脸信息与人体的其他生物特征,如指纹、虹膜等与生俱来,具有唯一性。这些关键信...
前海梦工场很AI 20余家科创... 深圳新闻网2025年7月6日讯(深圳商报记者 范宏韬)7月4日,由前海深港青年梦工场主办、梦工场在园...
重庆城市科技学院人工智能与大数... 2025年5月10日,重庆城市科技学院27名学子共9支队伍参加“第十三届重庆市大学生程序设计大赛暨C...
升级!老“引擎”跳动智慧“心脏... 发动机智能生产车间内,零部件一上线便扫码登记“身份证号”;灵巧的机械臂上下挥舞,精准拧紧螺栓,扭力数...
迅科达取得扬声器测试模拟装置专... 金融界2025年7月5日消息,国家知识产权局信息显示,深圳市迅科达智能科技有限公司取得一项名为“扬声...
AI时代,我们为何需要更好的科... 热播科幻剧集在2025年相继回归,折射出科技当道、文科衰落、理工科“统治世界”的现状。不仅是《黑镜》...
我国首座天然气全链条深冷处理厂... 我国首座天然气全链条深冷处理厂——中国石油西南油气田盐亭天然气处理厂于2025年7月3日在四川绵阳盐...
原创 聂... 2021年9月17日这一天,举国上下的目光都集中在同一个画面上——神舟十二号成功返回地球。那一刻,不...
无人机有了“火眼金睛”(做大做... □本报记者 李林 赵阿娜 当下,低空经济热度正高。谁承想,支撑低空经济“高飞”的背后,离不开一张“网...
兰州城市学院人文社科高等研究院... 兰州日报社全媒体记者 刘宝丽 7月5日,兰州城市学院人文社科高等研究院成立仪式暨学术研讨会在校本部举...
原创 我... 1970年4月24日晚上9点35分,我国成功发射了第一颗人造地球卫星,这一壮举标志着我国在太空技术上...
浙江千诺新材料取得造粒设备专利... 金融界2025年7月5日消息,国家知识产权局信息显示,浙江千诺新材料科技有限公司取得一项名为“一种造...
iPhone在中国销量两年来首... 快科技7月5日消息,对于苹果来说,现在的中国手机市场竞争越来越残酷,而他们在跟友商竞争中已经越来越吃...
应对Steam令牌验证故障的实... 许多Steam用户都经历过令牌状态异常的困扰,这种问题不仅妨碍了正常登录流程,还可能导致交易中断或关...
格力电器获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示格力电器(000651)新获得一项发明专利授权,专利名为“一种...