DeepSeek创始人专访摘录——梁文峰:形成可以创新的组织和文化,就是我们的护城河
创始人
2025-02-27 19:00:35
0

本文共6899字,阅读约需要17分钟

DeepSeek的全球爆红让创始人梁文峰一夜之间成为国内最炙手可热的明星企业家,然而与那些动辄参与峰会、论坛,时常做个演讲、直播的明星企业家不同的是,梁文峰显得极其低调和神秘。他不但鲜少在公开场合露面,甚至拒绝了99.99%的媒体采访请求。

作为企业家代表之一,梁文峰参加了2025民营企业家座谈会

截至本刊发稿时为止,舆论场中所有梁文峰的言论,均来自36氪的两篇专访——一篇是2023年DeepSeek刚成立时,文章题目是《疯狂的幻方:一家隐形 AI 巨头的大模型之路》 ;另一篇则是2024年DeepSeek首次发布大模型DeepSeek V2之后,文章的标题是《揭秘DeepSeek:一个更极致的中国技术理想主义故事》。在后面这篇文章里,36氪的记者这样评价梁文峰——

这位从幻方时代,就在幕后潜心研究技术的80后创始人,在DeepSeek时代,依旧延续着他的低调作风,和所有研究员一样,每天“看论文,写代码,参与小组讨论”。

和很多量化基金创始人都有过海外对冲基金履历,多出身物理、数学等专业不同的是,梁文锋一直是本土背景,早年就读的也是浙江大学电子工程系人工智能方向。

多位行业人士和DeepSeek研究员告诉我们,梁文锋是当下中国AI界非常罕见的“兼具强大的infra工程能力和模型研究能力,又能调动资源”、“既可以从高处做精准判断,又可以在细节上强过一线研究员”的人,他拥有“令人恐怖的学习能力”,同时又“完全不像一个老板,而更像一个极客”。

访谈里,这位技术理想主义者,提供了目前中国科技界特别稀缺的一种声音:他是少有的把“是非观”置于“利害观”之前,并提醒我们看到时代惯性,把“原创式创新”提上日程的人。

事实上,两篇专访中梁文峰都强调了同一件事:DeepSeek成功的奥秘在于,选用了一批没有经验但有潜能的人,以及有一个可以让创新发生的组织架构和企业文化,用梁文峰自己的话说就是, “形成可以创新的组织和文化,就是我们的护城河”

初心:为什么要做大模型

“一件激动人心的事,或许不能单纯用钱衡量”

记者:幻方作为一家量化基金,为什么要下场做大模型?

梁文锋:我们做大模型,其实跟量化和金融都没有直接关系。幻方的主要班底里,很多人是做人工智能的。当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题。

我们要做的是通用人工智能,也就是AGI。语言大模型可能是通往AGI的必经之路,并且初步具备了AGI的特征,所以我们会从这里开始,后边也会有视觉等。

记者:很多人认为,创业公司在大厂形成共识后下场,已经不是一个好的时间点。

梁文锋:现在看起来,无论大厂,还是创业公司,都很难在短时间内建立起碾压对手的技术优势。因为有OpenAI指路,又都基于公开论文和代码,最晚明年(2024年),大厂和创业公司都会把自己的大语言模型做出来。

大厂和创业公司都各有机会。现有垂类场景不掌握在初创公司手上,这个阶段对初创公司不太友好。但因为这种场景说到底也是分散的、碎片化的小需求,所以它又是更适合灵活的创业型组织的。从长期看,大模型应用门槛会越来越低,初创公司在未来20年任何时候下场,也都有机会。

我们的目标也很明确,就是不做垂类和应用,而是做研究,做探索。

记者:为什么你的定义是“做研究、做探索”?

梁文锋:一种好奇心驱动。从远处说,我们想去验证一些猜想。比如我们理解人类智能本质可能就是语言,人的思维可能就是一个语言的过程。你以为你在思考,其实可能是你在脑子里编织语言。这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)。

从近处说,GPT4还有很多待解之谜。我们去复刻的同时,也会做研究揭秘。

记者:但研究意味着要付出更大的成本。

梁文锋:只做复刻的话,可以在公开论文或开源代码基础上,只需训练很少次数,甚至只需finetune(微调)一下,成本很低。而做研究,要做各种实验和对比,需要更多算力,对人员要求也更高,所以成本更高。

其实从最早的1张卡,到2015年的100张卡、2019年的1000张卡,再到一万张,这个过程是逐步发生的。几百张卡之前,我们托管在IDC,规模再变大时,托管就没法满足要求了,就开始自建机房。

很多人会以为这里边有一个不为人知的商业逻辑,但其实,主要是好奇心驱动。对AI能力边界的好奇。一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。

商业化与创新:为什么做模型不做应用?

“拿互联网的商业逻辑去讨论未来AI的盈利模式,很可能是一种刻舟求剑。”

记者:对商业模式做了哪些推演和设想?

梁文锋:我们现在想的是,后边可以把我们的训练结果大部分公开共享,这样可以跟商业化有所结合。我们希望更多人,哪怕一个小App都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。大厂的模型,可能会和他们的平台或生态捆绑,而我们是完全自由的。

大厂肯定有优势,但如果不能很快应用,大厂也不一定能持续坚持,因为它更需要看到结果。头部的创业公司也有技术做得很扎实的,但和老的一波AI创业公司一样,都要面对商业化难题。

如果一定要找一个商业上的理由,它可能是找不到的,因为划不来。

从商业角度来讲,基础研究就是投入回报比很低的。OpenAI早期投资人投钱时,想的一定不是我要拿回多少回报,而是真的想做这个事。

我们现在比较确定的是,既然我们想做这个事,又有这个能力,这个时间点上,我们就是最合适人选之一。

记者:DeepSeek V2模型发布之前,大部分中国公司都会直接复刻这一代的 Llama结构去做应用,为什么你们会从模型结构切入?

梁文锋:如果目标是做应用,那沿用 Llama结构,短平快上产品也是合理选择。但我们目的地是AGI,这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力。这是提高到更大模型所需要做的基础研究之一。除了模型结构,我们还做了大量其他的研究,包括怎么构造数据,如何让模型更像人类等,这都体现在我们发布的模型里。另外,Llama的结构,在训练效率和推理成本上,和国外先进水平估计也已有两代差距。

记者:大部分中国公司都选择既要模型又要应用,为什么DeepSeek目前选择只做研究探索?

梁文锋:因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。

记者:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。

梁文锋:我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。Scaling Law也在被如此对待。

但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。

记者:其他几家大模型创业公司都是坚持既要又要,毕竟技术不会带来永久领先,抓住时间窗口把技术优势落到产品也很重要,DeepSeek敢于专注在模型研究上是因为模型能力还不够吗?

梁文锋:所有的套路都是上一代的产物,未来不一定成立。拿互联网的商业逻辑去讨论未来AI的盈利模式,就像马化腾创业时,你去讨论通用电气和可口可乐一样。很可能是一种刻舟求剑。

1月20日,DeepSeek、幻方量化创始人梁文峰出席总理座谈会

开源:要在哪里形成护城河?

“行成可以创新的组织和文化,就是我们的护城河”

记者:为什么DeepSeek V2会让硅谷的很多人惊讶?

梁文锋:在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯Follow(跟随、追随),而不是创新。

记者:但这种选择放在中国语境里,也过于奢侈。大模型是一个重投入游戏,不是所有公司都有资本只去研究创新,而不是先考虑商业化。

梁文锋:创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。

记者:为什么中国公司——包括不缺钱的大厂,这么容易把快速商业化当第一要义?

梁文锋:过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。我们只是被过去那种惯性束缚了,但它也是阶段性的。

记者:但你们毕竟是一个商业组织,而非一个公益科研机构,选择创新,又通过开源分享出去,那要在哪里形成护城河?像5月这次MLA架构的创新,也会很快被其他家Copy(复制)吧?

梁文锋:在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多Know-How(专业技能、技术诀窍),形成可以创新的组织和文化,就是我们的护城河。

开源,发论文,其实并没有失去什么。对于技术人员来说,被Follow(跟随、追随)是很有成就感的事。其实,开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。

记者:但做大模型,单纯的技术领先也很难形成绝对优势,你们赌的那个更大的东西是什么?

梁文锋:我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的Gap(间隙、差距、缺口)是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。

英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。

记者:现在的DeepSeek有一种OpenAI早期的理想主义气质,也是开源的。后边你们会选择闭源吗?OpenAI和Mistral都有过从开源到闭源的过程。

梁文锋:我们不会闭源。我们认为先有一个强大的技术生态更重要。

记者:你们现在不做应用,是因为你们没有运营的基因吗?

梁文锋:我们认为当前阶段是技术创新的爆发期,而不是应用的爆发期。长远来说,我们希望形成一种生态,就是业界直接使用我们的技术和产出,我们只负责基础模型和前沿的创新,然后其它公司在DeepSeek 的基础上构建to B、to C的业务。如果能形成完整的产业上下游,我们就没必要自己做应用。当然,如果需要,我们做应用也没障碍,但研究和技术创新永远是我们第一优先级。

记者:但技术真的可以拉开差距吗?你也说过并不存在绝对的技术秘密。

梁文锋:技术没有秘密,但重置需要时间和成本。英伟达的显卡,理论上没有任何技术秘密,很容易复制,但重新组织团队以及追赶下一代技术都需要时间,所以实际的护城河还是很宽。

记者:幻方时代,面对竞争的姿态就被评价为“我行我素”,很少在意横向比较。关于竞争,你思考的原点是什么?

梁文锋:我经常思考的是,一个东西能不能让社会的运行效率变高,以及你能否在它的产业分工链条上找到擅长的位置。只要终局是让社会效率更高,就是成立的。中间很多都是阶段性的,过度关注必然眼花缭乱。

2019金牛私募高峰论坛暨第十届中国私募金牛奖颁奖典礼上,梁文锋做主题演讲

人才:为什么不去海外挖人?

“经验没那么重要,基础能力、创造性、热爱更重要”

记者:大模型创业的人才也是稀缺的,有投资人说很多适合的人才可能只在OpenAI、FacebookAI Research等巨头的AI lab里。你们会去海外挖这类人才吗?

梁文锋:如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。从这个角度看,国内合适的候选人就不少。

记者:为什么经验没那么重要?

梁文锋:不一定是做过这件事的人才能做这件事。幻方招人有条原则是,看能力,而不是看经验。我们的核心技术岗位,基本以应届和毕业一两年的人为主。

记者:在创新业务上,你觉得经验是阻碍吗?

梁文锋:做一件事,有经验的人会不假思索告诉你,应该这样做,但没有经验的人,会反复摸索、很认真去想应该怎么做,然后找到一个符合当前实际情况的解决办法。我们的核心团队,连我自己,一开始都没有量化经验,这一点很特殊。不能说是成功的秘密,但这是幻方的文化之一。我们不会故意回避有经验的人,但更多是看能力。

记者:这次大模型招人,什么是我们必卡的条件?

梁文锋:热爱,扎实的基础能力。其他都没那么重要。

记者:这种人容易找到吗?

梁文锋:他们的热情通常会表现出来,因为他真的很想做这件事,所以这些人往往同时也在找你。

记者:OpenAI前政策主管、Anthropic联合创始人Jack Clark认为DeepSeek雇佣了“一批高深莫测的奇才”,做出DeepSeek v2的是怎样一群人?

梁文锋:并没有什么高深莫测的奇才,都是一些Top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。

记者:很多大模型公司都执着地去海外挖人,很多人觉得这个领域前50名的顶尖人才可能都不在中国的公司,你们的人都来自哪里?

梁文锋:V2模型没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。

记者:但你们不参与融资,很少对外发声,社会声量上肯定不如那些融资活跃的公司,怎么确保DeepSeek就是做大模型的人的首选?

组织:如何打造一个创新型组织?

“创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会”

记者:为什么很多家试图模仿你们,却没有成功?

梁文锋:因为仅凭这一点不足以让创新发生。它需要和公司的文化和管理相匹配。

记者:选来合适的人后,用何种方式让他进入状态?

梁文锋:交给他重要的事,并且不干预他。让他自己想办法,自己发挥。

其实,一家公司的基因是很难被模仿的。比如说招没有经验的人,怎么判断他的潜力,招进来之后如何才能让他成长,这些都没法直接模仿。

记者:你觉得什么是打造一个创新型组织的必要条件?

梁文锋:我们的总结是,创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的,不是刻意安排的,更不是教出来的。

记者:这是一种非常规的管理方式,这种情况下你如何确保一个人做事是有效率的,而且在你要的方向上?

梁文锋:招人时确保价值观一致,然后通过企业文化来确保步调一致。当然,我们并没有一个成文的企业文化,因为所有成文东西,又会阻碍创新。更多时候,是管理者的以身示范,遇到一件事,你如何做决策,会成为一种准则。

记者:你觉得这波做大模型的竞争中,创业公司更适合创新的组织架构会是和大厂竞争的破局点吗?

梁文锋:按照教科书的方法论来推导创业公司,在当下,他们做的事,都是活不下来的。

但市场是变化的。真正的决定力量往往不是一些现成的规则和条件,而是一种适应和调整变化的能力。

很多大公司的组织结构已经不能快速响应和快速做事,而且他们很容易让之前的经验和惯性成为束缚,而这波AI新浪潮之下,一定会有一批新公司诞生。

记者:这次MLA创新是如何发生的?听说idea最早来自一个年轻研究员的个人兴趣?

梁文锋:在总结出Attention架构的一些主流变迁规律后,他突发奇想去设计一个替代方案。不过从想法到落地,中间是一个漫长的过程。我们为此组了一个团队,花了几个月时间才跑通。

记者:这种发散性灵感的诞生和你们完全创新型组织的架构很有关系。幻方时代,你们就很少自上而下地指派目标或任务。但AGI这种充满不确定性的前沿探索,是否多了管理动作?

梁文锋:DeepSeek也全是自下而上。而且我们一般不前置分工,而是自然分工。每个人有自己独特的成长经历,都是自带想法的,不需要Push(推动、鞭策)他。探索过程中,他遇到问题,自己就会拉人讨论。不过当一个Idea(想法、构思)显示出潜力,我们也会自上而下地去调配资源。

记者:听说DeepSeek对于卡和人的调集非常灵活。

梁文锋:我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。

记者:一种松散的管理方式也取决于你们筛选到了一批强热爱驱动的人。听说你们很擅长从细节招人, 可以让一些非传统评价指标里优秀的人被选出来。

梁文锋:我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,很有意思。很多人对做研究的渴望,远超对钱的在意。

记者:创新很大程度也是一种偶然吗?我看你们办公区中间那排会议室左右两侧都设置了可以随意推开的门。你们同事说,这就是给偶然留出空隙。transfomer诞生中就发生过那种偶然经过的人听到后加入,最终把它变成一个通用框架的故事。

梁文锋:我觉得创新首先是一个信念问题。为什么硅谷那么有创新精神?首先是敢。Chatgpt出来时,整个国内对做前沿创新都缺乏信心,从投资人到大厂,都觉得差距太大了,还是做应用吧。但创新首先需要自信。这种信心通常在年轻人身上更明显。

文/本刊记者综合整理(摘自36氪专访《疯狂的幻方:一家隐形 AI 巨头的大模型之路》 、《揭秘DeepSeek:一个更极致的中国技术理想主义故事》)

编辑/莘然

相关内容

热门资讯

商业化路径渐明,家用机器人赛道... 相比于还未见到商业化曙光的通用人形机器人,家用机器人赛道公司正在排队融资和IPO。据港交所6月8日披...
M5白炭黑开创未来的革命材料之... 近年来,M5白炭黑作为一种全新的革命性材料,在各个领域得到了广泛的应用和高度的赞誉。M5白炭黑是一种...
太钢焦化环保数据监控平台成功投... 近日,由山西宝信承接的太钢焦化环保数据监控平台项目成功投入运行。该平台深度整合在线监测、物联网及大数...
腾势N8L无人机版官图发布,配... 6月9日消息,腾势官方发布了一组腾势N8L无人机版的官图。新车搭载灵鸢·比亚迪智能车载无人机系统,预...
免ROOT云手机破解版推荐:低... 咱游戏党都懂,手机配置拉胯、挂机老中断有多抓狂!但最近挖到宝了——免ROOT云手机破解版,低配机也能...
热搜!马斯克的“星链”,大批坠... 据外媒6月8日报道,埃隆·马斯克的太空探索技术公司发射的“星链”卫星接连坠落。 由美国国家航空航天局...
大模型 token 太贵了?苹... 去年 WWDC 上,被苹果过度宣传又放了鸽子的苹果智能 (Apple Intelligence),余...
马斯克的“星链” 卫星大批坠落... 据北京日报,援引6月8日参考消息,埃隆・马斯克的太空探索技术公司(SpaceX)发射的 “星链” 卫...
国产 AI 初创企业硅基流动完... IT之家 6 月 9 日消息,国内 AI 初创企业硅基流动(SiliconFlow)今日发文宣布,已...
任正非最新发声:在掌声与困境中... 来源|中访网 责编|何怡然 在深圳华为总部,一场与任正非的对话,如同一扇窗,让我们得以窥见华为在复杂...
海尔智家获得发明专利授权:“烹... 证券之星消息,根据天眼查APP数据显示海尔智家(600690)新获得一项发明专利授权,专利名为“烹饪...
未上市即遭山寨,老头乐版“小米... IT之家 6 月 9 日消息,博主 @韩路 发布视频,展示了一款酷似小米 YU7 的“老头乐”车型,...
亿纬锂能获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示亿纬锂能(300014)新获得一项实用新型专利授权,专利名为“...
智慧环卫系统平台解决方案(40... 方案聚焦智慧环卫系统平台,旨在借助物联网、大数据等技术,解决传统环卫管理中的人员、车辆、事件管理难题...
人民日报专访任正非:说我们好,... 6月10日,《人民日报》头版刊发文章《国家越开放,会促使我们更加进步——对话任正非》。 全文如下: ...
国产带压作业“神器”助力涪陵页... 日前,记者从涪陵页岩气公司获悉,该公司打破国外技术垄断而研发的国产化防顶回式堵塞器,目前已在焦页69...
天文学家:在距离地球很近的地方... 在距离地球仅300光年的地方,一个巨大的分子云悄然漂浮在太阳系的边缘。 2025年初,以Blakes...
华能水电获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示华能水电(600025)新获得一项实用新型专利授权,专利名为“...
visionOS 26 全面升... IT之家 6 月 10 日消息,苹果公司在 visionOS 26 中,将对 Apple Visio...
苹果iOS 26发布 AirP... 快科技6月10日消息,今日,苹果正式发布全新操作系统iOS 26,为AirPods带来录音棚级录音和...