大模型知识密度才是更重要本质
创始人
2024-07-08 19:41:52
0

大模型越大越好吗?商业化落地,究竟是做B端容易还是C端?7月5日,清华大学计算机系长聘副教授,面壁智能联合创始人、首席科学家刘知远现身上海,在WAIC2024的一场分论坛作了主题分享。会后,围绕大模型领域的热点话题,南都记者对话了刘知远。

刘知远说,当前大模型技术还在快速迭代中。技术较量的阶段可能持续两到三年甚至更长时间,再往后还会夹杂商业模式、产品运营设计等多方面的比拼,为此也有必要探索属于AGI和大模型的商业模式,才能支撑其向前发展。

模型越大越好吗?

知识密度、制程才是本质

从ChatGPT到Sora,频频打出“王炸”的OpenAI验证了规模法则(Scaling Law,也称尺度定律),即随着模型规模的增加,其性能也会相应提高。但是,在这一法则驱策下,持续无限制地把模型越训越大,就一定好吗?

7月5日,在2024年世界人工智能大会(WAIC 2024)的一场加速大模型应用落地的分论坛上,刘知远认为相比而言,大模型的知识密度、制程才是更为重要的本质。

何为知识密度?刘知远举例说道,同样测试100道题,有人需要吃十顿饭才有力气做完,有人只需一碗饭即可高效完成,很显然后者的知识密度更高。他还用了一个公式总结,知识密度=模型能力/推理算力消耗。简单来说,一个知识密度越高的模型意味着它的能力越强,每一次计算所需要的参数规模越小。

为找到更高知识密度、更高效的模型,面壁智能选择“卷”端侧大模型。但如何在端侧算力、内存、能耗有限的条件下,把知识浓缩到更小的参数规模里,是刘知远遇到的一个更大挑战。对此,训练大模型前,他选择先在“模型沙盒”中进行成千上百次的演练,然后将寻找到的最优数据和超参配置,外推至大模型。

据刘知远介绍,大模型时代将拥有自己的“摩尔定律”——按照他们的观察,模型知识密度呈现出每8个月提升一倍的规律。要让这一规律持续下去,则需要在数据、模型框架以及算法方面,不断探索科学化的方法,从而提升模型制程。

刘知远表示,大模型数据驱动的技术方向大致已经确定,但是模型的架构、算法、数据相关的技术方案仍然在高速迭代。接下来,更重要的是持续改进模型制程、持续高速迭代相关技术方案。“模型制程的提升,会带来模型知识密度的持续增强,二者交汇将会揭示端侧智能的巨大潜力。”

据面壁智能介绍,相比OpenAI于2020年发布的1750亿参数的GPT-3,2024年初,面壁发布具备GPT-3同等性能但参数仅为24亿的MiniCPM-2.4B,把知识密度提高了大概86倍。今年WAIC大会上,面壁智能还正式官宣,开源业内首个端侧大模型工具集“MobileCPM”,帮助开发者一键集成大模型到APP。

刘知远认为,未来的大模型是端云协同的模式。出于隐私保护、算力等考虑,把模型放在离用户更近的地方,具有重要的价值和意义。据他透露,面壁智能将在半年或一年内把GPT3.5水平的模型能力放到端侧运行,争取未来两年内在端侧实现GPT4.0能力。

市场机遇在B端还是C端?

先要有过硬技术

自2022年底ChatGPT横空出世后,国内外掀起了一波大模型热潮,百模大战一年多后,国产大模型追赶到了什么水平?

刘知远表示,从全球范围看,OpenAI推出的大模型仍处于世界一级水平,但中国大模型展现出了超强的追赶能力。大概在去年下半年,很多国内一线大模型公司完成了GPT3.5的建设,现在则达到了接近GPT4.0的水平。

“单看已发布的模型能力,基本上会认为中美大模型存在一年左右的代差。”但刘知远强调,更应该关注的是国外尚未公布的模型——比如美国一些科技公司完全具有持续不断推出模型的能力,而国内的大模型公司基本上还是带着目标在追赶,整体大的创新性仍不足。

大模型价值在于落地应用,但其市场机遇在B端还是C端,业内有不同的看法。有观点认为B端落地快、商业价值更大,但包括零一万物CEO李开复在内的人则坚持认为,走C端模式更有机会。与此同时,也有越来越多人在讨论:AI是一门烧钱的生意,投入越多但回报存疑,市场耐心开始不足了。

对于这样的讨论,刘知远认为还为时尚早。OpenAI推出的ChatGPT拉开了通用人工智能的序幕,它的意义类似于2000年左右的互联网浪潮。“在这样早期的阶段,就去讨论C端好做还是B端等特别具体的小问题,有点虚无缥缈,或者说似乎不那么重要。”

刘知远告诉南都记者,应该把大模型看得更“大”一点,它是相当于互联网甚至芯片级别的一个大浪潮,将带来深远影响。

他认为,当前大模型还处在一个初级阶段,初步验证了从数据到知识的一个学习和提取的通用方法,能够帮助各个行业更好地管理专业领域的知识,并且进行自动化应用。

而这项技术还远远没有“收敛”,仍在快速迭代之中。一家公司若从未专门做过大模型方向的积累和研究,那在后续的竞争中将难以保持模型制程的领先。

“如果一个花费几千万元训练出来的模型,跟别的公司相比有代差——在模型效果、所需算力和能耗上都没有竞争力,那一定会被市场淘汰。总之,你得先有更强的技术能力,才能赶上这波大模型的发展浪潮。”刘知远说。

在刘知远看来,未来5到10年内,大模型之争更取决于相应技术上的迭代。尽管如此,在技术发展过程中也应去探索属于AGI、属于大模型的商业模式。因为越往后,大模型的较量将夹杂更多商业模式、产品运营设计等综合方面的比拼,而行业也会经历一轮又一轮的洗牌。

大模型未来怎么走?

应深入垂直专业领域

在面壁智能首席科学家之外,刘知远还有一个身份是老师。

他在清华大学开设的课程中,有一门课叫《迈向通用人工智能》。为了回答同学们关于这门课的问题,他开发了一款“AI教师”的工具来辅助回答。在获得几百位学生的积极反馈后,刘知远计划把这一应用推广——为每位2024级入学的新生配备一个成长助手,用AI帮助学生处理可能遇到的各种课业难题。

“现在大模型所体现出来的通用知识管理能力,我认为今年下半年,应该会在很多领域开始看到不同创新应用。光是在清华做的这种AI+教育的创新,我就觉得非常有意思。”刘知远对南都记者表示。

其实不仅在教育领域,大模型在司法领域也有创新应用。今年6月28日,深圳中院上线运行面壁智能参与研发的系统,这一系统覆盖法院立案、阅卷、庭审、文书制作等审判业务的85项流程,还能针对一些典型纠纷,预判调解难点,智能推送法律知识和典型案例。

“为什么法律领域的大模型落地速度快?”刘知远认为,一个原因在于借助AI技术可以帮助法官提质增效,从大量重复性的劳动中解放出来。面对案多人少的突出矛盾,法院拥抱AI的积极性非常高。

另一个重要原因,则是信息化程度高——包括金融、互联网领域也一样,“它们的数据是天然的,所以大模型用起来很顺。”在刘知远看来,“现在限制大模型广泛应用的瓶颈不在于技术,而在于相关的信息化、数据化的准备上。”

谈及大模型发展趋势,刘知远认为大模型将持续深入各个专业垂直领域。此外,数据质量决定了模型的上限——即便手握大量的数据,但无法从中提取出高质量的内容,那么所训练出的模型也将受限。因此刘知远认为,将来还会出现专门的数据治理团队,助力各个领域更好地挖掘数据价值。

采写:南都记者 李玲 见习记者 杨柳 发自上海

相关内容

热门资讯

特别关注|双燃料发动机,双重机... 随着2025年1月FuelEU Maritime法规的生效,以及国际海事组织(IMO)2050年净零...
原创 小... 我们都知道,目前在全球市场国产手机可谓是一骑绝尘,几乎干掉了所有的国外品牌。不过国产尝试依然面对一个...
企业微信5.0正式发布 推出三... 8月20日,企业微信团队举行了2025新品发布,企业微信5.0正式发布,新版本全面融合AI能力,推出...
淘宝内测AI搜索,AI电商真的... 经观评论 陈白 | 文 2025年国内互联网大厂们争夺大半年的AI搜索赛道,迎来了电商新玩家——淘...
封面科技参编 新闻行业大规模预... 新闻行业大模型预训练模型系列标准 图源:新华社 近日,由中国新闻技术工作者联合发布,中国标准出版社出...
加速关键核心技术验证迭代,20... 关于开展2025年 重点应用场景项目申报的通知 各有关单位: 为推动科技新场景开放,加速关键核心技术...
让机器人“能听会懂” 绵阳揭开... 中新网四川新闻8月20日电 (王泽宇 尹秦)8月19日,中国(绵阳)科技城数字经济产业园内,一台背着...
中创智领取得一体机调节立柱装置... 金融界2025年8月20日消息,国家知识产权局信息显示,中创智领(郑州)工业技术集团股份有限公司取得...
星虹科技取得节能永磁无刷直流电... 金融界2025年8月20日消息,国家知识产权局信息显示,江门市星虹科技有限公司取得一项名为“一种节能...
阿里Qwen-Image模型:... 在科技日新月异的今天,人工智能领域再次迎来重大突破。阿里巴巴近期发布了Qwen-Image,这一图像...
音贝尔科技取得嵌套式蓝牙耳机专... 金融界2025年8月20日消息,国家知识产权局信息显示,深圳市音贝尔科技有限公司取得一项名为“一种嵌...
“人工智能+制造”行动走深走实... 推动“人工智能+制造”行动走深走实,培育一批工业智能体,以工业智能体为抓手深化人工智能工业应用,支持...
迈雷特数控取得数控机床试切件夹... 金融界2025年8月20日消息,国家知识产权局信息显示,重庆市迈雷特数控技术有限公司取得一项名为“一...
真菌性外耳道炎:你需要了解的“... 真菌性外耳道炎是一种由外耳道真菌感染引起的常见耳部疾病,虽不致命,却能带来持续的不适,若处理不当还可...
300余名中外嘉宾在昆明探讨科... 来源:中国新闻网 中新网昆明8月20日电 (记者 缪超)“2025智创未来国际论坛暨第一届面向南亚东...
身家10亿起的阿里码农,转投杭... 来源:市场资讯 (来源:21财闻汇) 作者:蔡婷 鄢子为 编辑:鄢子为 图源:视觉中国 阿里码农元...
AI芯片互联演进机会梳理 来源:市场资讯 (来源:君实财经) 我们认为Scale Up网络存在Scaling Law,Scal...
突围进行时 | 三重优势破局!... 编者按: 在自治区党委、政府高位推动下,内蒙古以“起跑就领先”的魄力,按下科技“突围”快进键,锚定稀...
湖北秭归:无人机“飞防”护航高... 8月19日,湖北省宜昌市秭归县沙镇溪镇长春村的高山梯田上空,两架无人机穿梭于翠绿稻浪间,精准向冷水稻...
vivo执行副总裁胡柏山:vi... 在“vivo会客厅”活动上,vivo执行副总裁、首席运营官、vivo中央研究院院长胡柏山表示,对于v...