26分钟,成本不到50美元就训练出新模型s1-32B?
本以为中国的DeepseekAI出台后,已经让美国震惊,让英伟达股市下跌,没想到华裔女院士出手,竟然让人如此震惊,难道就那么容易被复刻吗?那么如何才能理解AI“白菜价”背后的隐喻呢?
近几日,我国DeepSeek备受全球关注,短短几天就让AI巨头英伟达股价暴跌,人工智能推理已经有了新的发展。
然而让人想不到的是,根据外媒报道,还不到49岁的华裔女院士李飞飞,带领她的团队,竟然仅仅只用了不到50美元的费用,花费了26分钟的时间,就完成了训练,打造了一个名为s1-32B的人工智能推理模型。
根据李飞飞的研究论文表述,该模型的编码能力在测试中,竟然可以和DeepSeek以及openAI不相上下。
一时间,低成本、高效能让李飞飞的模型瞬间成为了科技界热议的话题之一,不过背后却还是有着让人难以置信的真相。
说起李飞飞,在她的身上可谓是充满了戏剧性,如今她的身份不仅是美国国家工程院院士和医学院院士以及艺术与科学院院士,还是Twittre公司的独立董事,甚至被外界称为“AI教母”。
不过出生在北京的她,能够在如此年纪成就这番事业,其实这也并不容易。
1999年,23岁的李飞飞从普林斯顿大学本科毕业后,就去了我国西藏研究藏药,作为物理学专业的学生,她对于生物的研究却十分感兴趣,这也为她后来成为医学院士奠定了基础。
一年之后,李飞飞回到了美国,并且开启了自己更高的求学之路,顺应时代的脚步发展,年轻的她就有这样的想法。
在美国李飞飞凭介子的实力,打出了属于自己专业的一片天地,就连美国媒体都报道,称她“美国梦”成真了!
李飞飞凭借实力留在了美国,在物理、医学和科技创新上,几乎都有她的脚步,而之所以能够成为“AI教母”,也是因为她那勇于创新的能力。
前几年的时候,可能对于AI我们并不是很熟悉,毕竟AI也需要强大的算法和芯片支持,而当时李飞飞在美国就已经是斯坦福人工智能实验室主任了。
用数字改变生活,在李飞飞的带领下,团队的人工智能产业发展壮大,也正是因此,当她说用50美元复刻DeepSeek的时候,才会让外界如此震惊,但并不是那么简单。
如今李飞飞团队虽然表示用了不到50美元复刻,但是要知道他们可是使用了16张英伟达H100GPU。
而且就比如我国DeepSeek这样的公司,前期为了能够训练出更强大的人工智能推理模型,前期那是非常烧钱的。
而李飞飞团队所训练的s1-32B,并不是说从零起步,而是在原有训练模型基础之上,此次他们预训练的模型是“阿里通义千问Q问2.5-32B-Instruct”进行一个监督微调。
不得不说,李飞飞团队在AI上的能力确实很强,但是他们所说的50美元成本,说白了也是把别人当做垫脚石,而且没有包含Qwen模型的训练费用。
如果说人工智能训练模型如此廉价,李飞飞团队这样“卷”价格的话,是不会带来什么好处的。AI大数据是未来发展的一个重要方向,但不是说为了争夺市场就在成本上压缩。
根据官方消息,DeepSeek-V3当初训练的成本就已经高达600万美元了,而且还只是包括了训练时GPU算力的费用。
此次李飞飞使用了16张英伟达H100GPU,才“打造”一个人工智能推理模型,而且在测试的时候,也并不是那么简单的,毕竟AI模型推理的时间越短且答案越准确,才能够被人使用。
如果说都按照李飞飞团队来训练模型的话,那么谁会去创造新的技术呢?毕竟很多都希望踩在“巨人肩膀”上。
AI人工智能的发展,必将是科学界未来最主要的一条路,但也并不是说让英伟达一家独大,能够让全人类享受到其中的利益才是最重要的!