OpenAI不敢公开的技术:DeepSeek低成本训练内幕
创始人
2025-02-01 00:05:24
0

大家好,我是编程乐趣。

DeepSeek杀疯了!DeepSeek的综合能力与ChatGPT已经不分伯仲了。

这几天我也看了很多资料,来了解DeepSeek如何实现低成本的。

在介绍DeepSeek低成本训练内幕之前,我们先来聊聊改变了哪些行业格局。

DeepSeek的崛起打破了AI大模型烧钱、堆算力的固有印象,大大降低了AI门槛,使得更多的企业和开发者能够用上先进的AI大模型,同时也能训练先进的AI大模型,也打破了美国AI垄断的局面。

总的来说,只要你敢于创新、敢于尝试、在有限的资金和算力下,也是有可能实现先进的AI大模型。

DeepSeek做了如下创新,使得成本大大降低。

1、创新性地提出了 MLA(多头潜在注意力机制)架构和MOE混合专家模式架构,将显存占用大幅降低至过去常用 MHA 架构的 5%-13% 。

2、在模型架构方面也做了很多优化,它通过定制芯片间通信方案,使得数据在运算过程中传输更加高效,减少因通信延迟或数据传输错误导致的额外开销。

3、DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。

以上是 DeepSeek的具体做法,但更重要的是 DeepSeek创始人的理念。

DeepSeek创始人认为要赶超美国,不能单纯的模仿,更是要有魄力去创新,DeepSeek就是走的就是一条他人从未走过的路,这是非常冒险的事情,但可喜的是 DeepSeek成功了,这是其他大厂没去尝试、可能也不敢尝试的路

另外DeepSeek的目标是做AGI,也就是通用人工智能,不仅仅搞一个大模型而已,现有的ChatGPT模式是非常消耗资源的,要实现AGI的目标,现有模式肯定是走不通的,必须寻找其他路径。

理念和目标不同,自然会驱动思维和技术的创新。

DeepSeek的模式对于我们普通程序员来说,也是非常有启发的。

我们学习编程的时候,前期肯定要优先选择模仿、跟随,更是要深入理解他人的编程理念。

在结合他人的理念基础上,我们要根据自己的目标,提出适合自己目标的编程理念,有了自己独特理念,自然能在技术做出创新。

相关内容

热门资讯

美媒:大脑芯片技术日渐成熟 参考消息网7月9日报道据美国石英财经网站7月7日报道,经过逾50年的研究,脑部植入技术已从实验室里的...
【特稿】美国教师要学AI 三大... 美国教师要学AI 三大美企联手培训 李贝阳 美国教师联合会8日在纽约市宣布,将与美国人工智能技术巨头...
黑林铺街道多社区联合开展红色阅... “没有共产党就没有新中国……”在黑林铺街道沙沟社区综合文化服务中心内,激昂嘹亮的歌声回荡,沙沟社区联...
山东恒亚申请车磨铣复合机床专利... 金融界2025年7月9日消息,国家知识产权局信息显示,山东恒亚机床制造有限公司申请一项名为“一种车磨...
原创 7... 月9日将成有史以来最短一天,科学奇观引发热议 在浩瀚的宇宙时间轴上,每一个瞬间都承载着独特的意义。而...
故宫博物院青少网站英文版、繁体... 故宫博物院青少网站英文版、繁体版上线暨2025年故宫-香港青年文化从业者“文化+科技训练营”开营仪式...
追火箭看排球听摇滚 文昌邀请各... 人民网海口7月9日电 (记者李学山)7月9日,由文昌市政府主办的“文昌是个好地方,邀您留一夏”202...
强化海洋战略科技力量 近日召开的中央财经委员会第六次会议提出,提高海洋科技自主创新能力,强化海洋战略科技力量。这有助于筑牢...
13.17秒跑完100米!全球... 7月7日消息,在浙江大学杭州国际科创中心(简称科创中心)首期开园五周年之际,科创中心人形机器人创新研...
飞书:发布多款AI产品,多行业... 【飞书召开AI产品发布会,发布升级多款产品助力企业AI落地】如今,AI大模型成不少人提效“神器”,但...
小红书不想只做一个「有用」的社... 文 | 阑夕 小红书的Slogan,变了。 从「你的生活指南」,改成了「你的生活兴趣社区」,虽然只是...
艾宝特智能取得电动直压开合模装... 金融界2025年7月8日消息,国家知识产权局信息显示,惠州市艾宝特智能科技股份有限公司取得一项名为“...
无人机“飞”进社区课堂 青少年... “机翼有正反,装反了小飞机可飞不起来哦!”在长安区太乙宫街道正街社区的活动室里,大学生志愿者正手把手...
贵阳这支算法团队,一年跻身西南... 日前,国际数据公司(IDC)最新报告显示,字节跳动旗下的豆包大模型在中国公有云大模型市场份额排名第一...
聚焦“天地一体”,中科曙光、中... 文 观察者网 武守哲 在全球空天竞争日趋激烈的背景下,7月8日,中科曙光与中科星图在合肥“2025空...
广州中慧上启科技靠谱吗? 在深化产教融合的国家战略推进中,广州中慧上启科技有限公司作为教育部备案的职业教育培训评价组织其教育软...
义乌太阳能风扇帽风靡海外市场 ... 央视网消息:随着全球多地气温持续走高,各类清凉小商品成为出口市场的爆款单品。截至7月初,这款走红海外...
济南园林集团与山东省互联网传媒... 记者 李萍 济南报道 7月9日,济南园林开发建设集团有限公司与山东省互联网传媒集团举行交流座谈会。济...
“本源悟空”引领:中国自主超导... 在科技领域,一场关于计算革命的新浪潮正在悄然兴起,其核心在于量子计算与人工智能的深度融合。这一趋势被...
漳州科华电气申请三电平变换器控... 金融界2025年7月9日消息,国家知识产权局信息显示,漳州科华电气技术有限公司申请一项名为“三电平变...