“AI界的拼多多”DeepSeek推出新款大模型,水平如何?
创始人
2024-12-27 19:40:57
0

开源和闭源AI的差距,进一步被这家中国公司缩小了。

近日,被称为“AI界拼多多”的中国人工智能初创公司深度求索(DeepSeek)发布了全新大模型DeepSeek-V3(下称V3)并同步开源。该模型在Aider多语言编程测试排行榜中,已超越Anthropic的Claude 3.5 Sonnet大模型,仅次于榜首的OpenAI o1大模型。

开源No.1,多方面追平闭源大模型

DeepSeek是知名私募巨头幻方量化旗下的人工智能公司,根据DeepSeek公布的测试结果,其运行了多项基准测试来比较性能,V3模型已明显优于包括Meta公司的Llama-3.1-405B和阿里云的Qwen 2.5-72B等一众领先开源模型。在大多数基准测试中,它甚至部分超越了OpenAI的闭源模型GPT-4o。

Deepseek-V3在多方面超越、追平各种开源、闭源大模型。Deepseek

首先是百科知识上,V3的知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)水平相比前代 DeepSeek-V2.5 (下称V2.5)显著提升,接近当前表现最好的模型 Claude-3.5-Sonnet-1022。长文本测评方面,在DROP、FRAMES 和 LongBench v2 上,V3 平均表现超越其他模型。

此外,V3 在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型,并在工程类代码场景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。

值得注意的是,V3在中文和数学相关基准测试中表现尤为突出。

在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,V3大幅超过了所有开源闭源模型。在中文能力上,V3 与 Qwen2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现相近,但在事实知识 C-SimpleQA 上更为领先。

训练成本极低

按照美媒Venture Beat的说法,虽然V3已成为市场上最强大的开源模型,但其训练成本却非常非常低。

通过在上一代DeepSeek-V2上的成功验证,V3沿用了可以大幅降低显存占用的MLA(多头潜注意)和DeepSeekMoE(混合专家)架构,其具有6710亿参数,每次推理激活370亿参数,这种方法确保了高效的训练及推理。在训练阶段,DeepSeek使用了多种硬件和算法优化,包括FP8混合精度训练框架和用于管道并行的DualPipe算法,以降低训练成本。

V3基础架构,DeepSeek创新的MLA被用于高效推理,DeepSeekMoE则用于经济训练。DeepSeek论文

DeepSeek声称,V3 实现了极高的训练效率。在约278.8万个英伟达 H800 GPU小时内完成了V3的整个训练,假设GPU的小时租金为2美元,总成本就是约为557万美元。这远低于通常用于预训练大语言模型动辄上亿美元的成本,比如Llama-3.1的预训练成本估计就超过5亿美元。

DeepSeek还通过算法和工程上的创新,使V3的生成吐字速度从20TPS大幅提高至60TPS,相比V2.5模型实现了3倍的提升,在处理多模态数据和长文本时表现突出。而随着性能更强、速度更快的V3更新上线,DeepSeek的模型API服务定价也调整为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元。

量化基金转型人工智能

公开资料显示,在DeepSeek背后是量化私募巨头幻方(High-Flyer Quant),也是大厂外唯一一家储备上万张英伟达 A100芯片的公司。幻方成立于2008年,总部位于中国杭州,专注于利用数学、统计学和计算机技术进行金融市场的量化分析和交易。

自2023年四季度以来,A股市场不断下行,而利用数学模型和计算机程序等技术手段进行投资决策的量化基金曾被作为“罪魁祸首”受到舆论的冲击,这也让幻方旗下基金表现一直落后于沪深300指数4个百分点。

不过,随着今年5月DeepSeek-V2发布,幻方量化却成功转型为人工智能先驱,其超低价格甚至引发了国内大模型的价格战,DeepSeek也被迅速冠以“AI界拼多多”之称。这反映出百度和阿里巴巴等科技巨头,尽管在生成式人工智能领域已处于领先地位,但仍需要面对着来自新玩家的激烈竞争。

幻方创始人梁文锋此前曾回应称,DeepSeek定价原则就是不贴钱,但也不赚取暴利。只是让他也没想到的是,DeepSeek的定价却让各大厂商纷纷降价,然而DeepSeek自身反而却是有利润的。

“字节是第一个跟进的,其旗舰模型降到和我们一样的价格,然后触发了其它大厂纷纷降价”,梁文锋解释说,“因为大厂的模型成本比DeepSeek高很多,所以DeepSeek没想到会有人亏钱做这件事,最后就变成了互联网时代的烧钱补贴的逻辑。”

梁文锋认为,更多的投入并不一定产生更多的创新,否则大厂可以把所有的创新包揽了。

相关内容

热门资讯

一种新型激酶抑制剂可有效对抗多... 新华社赫尔辛基7月15日电(记者朱昊晨 徐谦)东芬兰大学参与的一项国际研究发现,一种新型双靶点脂质激...
第十二届皖台物联网研讨会在滁州... 7月9日,第十二届皖台物联网研讨会在滁州学院召开,来自两岸30余所高校、研究所和产业界代表120余人...
3D打印人体大脑手板模型过程-... 3D打印大脑手板模型是一种利用3D打印技术制作高精度、复杂的大脑结构模型的过程,主要用于医学研究、教...
中电信量子集团落子内蒙古 量子... (记者 陈锦锋)2025年7月15日,以“青城启航•量领未来”为主题的全国绿色算力大会在呼和浩特盛大...
半年跌掉50%用户!梁文锋:英... 来源:倪卫涛 半年前还被捧为“国产大模型之光”的梁文锋,最近日子有点难熬。自家DeepSeek从Ap...
全球首个 AI 智能体安全测试... 7 月 14 日消息,据蚂蚁技术消息,世界数字科学院(WDTA)在联合国日内瓦总部日前正式发布 AI...
天舟九号成功对接空间站,神舟二... 2025-07-15 17:41:45 作者:狼叫兽 2025年7月15日5时34分,搭载天舟九...
《上海市关于支持互联网优质内容... 政策背景 1.制定推出《上海市关于支持互联网优质内容创作的若干举措》(简称《若干举措》)的主要目的是...
维柯,为人文知识“背水一战” 这些年,由于多个国家的高校缩减文科专业,一种关于“文科衰落”的论调在世界范围内兴起。 此处的文科,大...
乐山铭盛取得冷链运输托盘专利,... 金融界2025年7月16日消息,国家知识产权局信息显示,乐山铭盛物流投资有限公司取得一项名为“一种冷...
恒昶精密组件取得注塑用原料筛选... 金融界2025年7月16日消息,国家知识产权局信息显示,恒昶精密组件(北京)有限公司取得一项名为“一...
荧光淬灭剂Tide Quenc... 荧光淬灭剂 Tide Quencher 4WS 琥珀酰亚胺酯(Tide Quencher 4WS N...
仪器仿真软件:智慧课程赋能高校... 在当今科技飞速发展的时代,教育和科研领域对实验教学与科研手段的创新需求日益迫切。国家也在大力推动教育...
OpenAI前首席技术官的AI... 当地时间7月15日,OpenAI前首席技术官Mira Murati宣布,其创立的AI初创公司Thin...
山东联通5G-A赋能无人机开启... 7月10日上午,山东省临沂市5G+无人机药品配送专线在临沂职业学院举行开通仪式,该无人机航线全程2....
OpenAI前CTO新AI初创... OpenAI 前首席技术官米拉·穆拉蒂 (Mira Murati)周二表示,她的人工智能初创公司 T...
原创 探... 你有没有想过,在地球最南端的南极,那片白茫茫的冰雪世界之下,到底隐藏着什么?南极的冰川,就像大自然精...
艺趣拍取得磁吸滤镜双面补光灯专... 金融界2025年7月16日消息,国家知识产权局信息显示,艺趣拍科技(深圳)有限公司取得一项名为“磁吸...
“十四五”高质量发展答卷|中国... (记者 安子修)随着数字化的不断演进,万物互联的时代正在到来。近日,工业和信息化部物联网标准化技术委...
湖北宏骏精密机械取得弹性双闸板... 金融界2025年7月15日消息,国家知识产权局信息显示,湖北宏骏精密机械股份有限公司取得一项名为“一...