大模型的发展已经进入了万亿级参数时代。DeepMind 联合创始人穆斯塔法・苏莱曼(Mustafa Suleyman)预测,仅在未来三年内,大模型规模以惊人的速度继续扩张,将增长 1000 倍。
一方面,模型的参数量与其能够处理和学习的复杂性直接相关。模型容量越大,往往意味着性能越好。随着模型容量增加到数万亿个参数,大模型可以捕捉更复杂的模式,从而在自然语言处理、计算机视觉和其他任务上表现更好,具备更像人类的能力。
另一方面,随着计算能力的大幅提升,特别是 GPU 和专用 AI 芯片(如 TPU)的发展,使得训练更大规模的模型成为可能;新的模型架构和训练技术的出现,如 Transformer 架构和预训练技术,使得模型能够更有效地扩展到更大的规模。
此外,模型的大小往往被视为技术创新和研发实力的一种体现。因此,研究和商业机构之间存在一种竞争,推动着模型规模不断扩大,直到推上万亿级参数量的巅峰。
然而这种大模型之间的军备竞赛,令业内十分担忧。
参数量的增加,就一定能带来显著的性能提升吗?不一定。大模型带来的问题越来越明显:
计算资源需求巨大:训练大规模模型需要大量的计算资源,包括高性能 GPU、云计算集群等。这对于大多数企业和个人来说,成本高昂。对话式人工智能模型Claude背后的初创公司 Anthropic 认为,在 18 个月内,他们可以构建出比当今最大模型还要强大 10 倍的模型。但是这个 “Claude-Next” 可能需要超过 10 亿美元来训练和运行。
能源消耗:训练大模型的训练和运行都要消耗大量能源,并且产生的巨大体量的碳排放。根据 Digital Information World 发布的报告显示,OpenAI 训练 GPT-3 耗电为 1.287 吉瓦时,大约相当于 120 个美国家庭 1 年的用电量。而这仅仅是训练 AI 模型的前期电力,仅占模型实际使用时所消耗电力的 40%。2023 年 1 月,OpenAI 仅一个月已耗用可能等同 17.5 万个丹麦家庭的全年用电量。谷歌 AI 每年耗电量达 2.3 太瓦时,相当于亚特兰大所有家庭 1 年用电量。
不可解释性:由于 GPT-3、BERT 等大模型具有复杂的结构和数以亿计的参数,其内部的决策过程对于人类来说往往是黑箱式的,即难以直接理解。人们难以理解模型为何作出某个预测或生成某段文本,这在一些敏感领域中可能引发问题。
伦理和安全问题:大模型的应用涉及伦理和安全问题,例如偏见、歧视、虚假信息等。如何对万亿级的大模型进行监管和治理,这在全球都算得上是一个棘手问题。
“我们正在接近大模型规模的极限。规模越大不一定意味着模型越好,很可能只是为了追求一个数字而已。”去年 4 月,OpenAI 的联合创始人兼 CEO Sam Altman 在麻省理工学院 “想象力行动” 活动上接受采访时表示。
他将 LLM 的规模与过去芯片速度的竞赛进行了类比,指出今天我们更关注芯片能否完成任务,而不是它们有多快。“规模不再是衡量模型质量的重要指标,未来将有更多的方式来提升模型的能力和效用。”
风向在转变,小模型正在成为 AI 界的新宠。尽管参数规模较小,却在成本、性能和实用性方面具备优势 —— 占内存小、反应速度快、可以本地化运行。
不久前,微软研究院推出了新一代小型语言模型系列 Phi-3。虽然该模型的参数规模较小,但通过精心设计的训练数据集和优化的算法,超越了同等大小和稍大一号的模型,在各种语言、推理、编码和数学基准测试中表现优异。
苹果紧随其后,发布了 OpenELM,包含了 2.7 亿、4.5 亿、11 亿和 30 亿四个参数版本。与微软的 Phi-3 一样,OpenELM 也是一款专为终端设备而设计的小模型。
在国内,面壁智能推出了只有 20 亿参数量级的模型 MiniCPM,而其性能却超过了大参数模型 Mistral-7B,且部分超越 Llama-13B 等,能在在手机等终端上运行,甚至仅靠一块 CPU 就能运载。
小模型正在不断证明,它们可以在重点任务上与大模型相媲美,甚至将其击败。其优势也恰好能补大模型的不足,比如:
在大多数特定于功能的用例中,比如医疗、法律和金融等领域,小模型可能会表现更加出色。利用这些领域高度专业化的知识训练小模型,并对其进行微调,可以作为高度监管和专业化行业中特定领域用例的智能代理。
小模型在边缘设备上有着广泛的应用,如智能手机、物联网设备和嵌入式系统,这些边缘设备通常具有有限的计算能力和存储空间,它们无法有效地运行大型语言模型。小模型更接近用户,更个性化,更适合解决实际问题。
一个观点认为,大模型和小模型都将在未来的AI市场中占有一席之地。具有数万亿参数的大模型将推动通用智能的新领域,具有数百万到数十亿个参数的专用小模型将处理大多数公司的重点任务。
因此,对于诸多垂直领域的企业而言,或许应该更多地建立自己能够负担得起的 “小模型”,通过具备学习能力的 AI 来加速小体量应用场景的体验更新。
与其将大模型和小型模之争称为 “模型之战”,不如将二者视为互补并满足不同需求。学会驾驭这种二分法,或许才能未来几年把握住 AI 大势。
上一篇:拍卖成交额首破120亿元