手机厂商份额占比
据IDC统计,2024年第一季度,智能手机市场份额前三为三星,苹果,小米, 其份额分别为20.1%,17.5%,13.6%,而相对于2023年同期出货量变化为 -0.5%、-5.1%、+33.7%。
智能手机销量逐渐停滞
据Canalys数据,由于需求减少,2022 年全年厂商出货量不足 12 亿部,导致 全年出货量下降 12%。 自2018年到2023年,除2021年外,整体手机市场基本处于销量逐 渐停滞。
目前,全球智能手机市场已过了快速增长阶段,消费者更换手机的周期越来越 长,设备创新趋同,智能手机市场日趋成熟。 我们认为,智能手机销量停滞的原因之一是手机性能的过剩,即消费者认为现 有的智能手机功能和性能已经足够,导致更换手机的频率降低。Counterpoint 的报告提到,虽然高端市场(如价格在600美元以上的手机)在增长,但整体 市场增速放缓,部分原因是设备性能过剩和消费者换机周期延长。
据Canalys数据,2024年,全球16%的智能手机出货为AI手机,到2028年, 这一比例将激增至54%。受消费者对AI助手和端侧处理等增强功能需求的推动, 2023年至2028年间,AI手机市场以63% 的年均复合增长率(CAGR)增长。预 计这一转变将先出现在高端机型上,然后逐渐为中端智能手机所采用,反映出 端侧生成式AI作为更普适性的先进技术渗透整体手机市场的趋势。
传统手机芯片的限制
尽管“AI+手机”展现出的潜力让市场为之兴奋,但从当下已发布的AI手机来 看,AI功能还仅集中在图像处理、语音识别等方面,离理想中的AI手机仍存在 差距。
当前,AI手机尚需解决的关键问题包括提升离线环境下AI处理能力、优化AI运 算能效、延长电池寿命,以及加强AI决策的透明度和伦理规范等。理想的AI手 机应具备全方位的智能感知与自主服务能力,能无缝融入用户生活并与各类智 能设备联动。
这些 AI用例面临两大共同的关键挑战。第一,在功耗和散热受限的终端上使用 通用 CPU和 GPU服务平台的不同需求,难以满足这些 AI用例严苛且多样化的 计算需求。第二,这些 AI用例在不断演进,在功能完全固定的硬件上部署这些 用例不切实际。因此,支持处理多样性的异构计算架构能够发挥每个处理器的 优势,例如以 AI为中心定制设计的 NPU,以及 CPU和 GPU。每个处理器擅 长不同的任务:CPU 擅长顺序控制和即时性,GPU适合并行数据流处理,NPU 擅长标量、向量和张量数学运算,可用于核心AI工作负载。
NPU的发展与局限
NPU是面向机器学习和人工智能领域的专用加速芯片。相比CPU、GPU等通 用芯片,NPU在电路层模拟了人类神经元和突触,针对AI计算涉及的大量神经 网络模型进行特殊优化,能够以更高的效率、更低的能耗处理人工神经网络、 随机森林等机器学习算法和深度学习模型。
NPU 专为实现以低功耗加速 AI 推理而全新打造,其架构随着新 AI 算法、模 型和用例的发展不断演进。Al 工作负载主要包括由标量、向量和张量数学组 成的神经网络层计算以及非线性激活函数。优秀的 NPU 设计能够为处理这些 AI 工作负载做出正确的设计选择,与 AI 行业方向保持高度一致。
在面向更多行业、更多场景的落地过程中,NPU的应用开发也出现了一些痛点。 NPU的使用难点在于如何能释放出有效的算力。想让NPU充分发挥性能,不能 光靠堆积来实现,而要了解NPU的理论算力和实际应用算力。在此基础上,再 对现有的编程模型进行优化,使其更好地适应NPU的并行处理架构。这需要开 发者和工程师深入了解NPU的工作原理和特性。除了编程模型优化外,还需要 对硬件设备本身进行优化,例如散热、功耗管理等。这些因素都会影响到NPU 的实际性能和算力。为了进一步实现NPU在AI PC中的普及并释放出有效算力,还需要建设针对 NPU的生态。由于缺乏统一的工具链,NPU在推理侧出现了硬件碎片化,增加 了应用开发创新的代价和周期。另一方面,NPU处理AI模型的训练、推理时, 涉及或产生大量数据,开发者对白盒软件、工具链的诉求越发迫切。
SLM推动AI手机芯片进化
在大模型发展趋缓的情况下,我们认为AI手机创新发展的重点在于软件生态和 小模型,AI手机芯片作为小型语言模型的载体,是实现用户需求的关键。 小型语言模型(SLM)是一种轻量级的生成式人工智能模型。这里的“小型” 指的是模型神经网络的大小、模型用于决策的参数数量以及模型训练的数据量。 许多研究人员的共识是,参数少于 1 亿的 语言模型被认为是小型模型,尽管 定义可能有所不同。一些专家认为,参数少至 100 万至 1000 万的模型都属于 小型模型,这与当今拥有数千亿参数的大型模型形成了鲜明对比。与大型语言 模型(LLM)相比,SLM体积小,可以使用相对较小的数据集进行训练,需要 的计算能力和内存更少,可以部署在移动设备上。
Phi-3与其他SLM以及LLM的对比
微软的 Phi-3 模型是专为提高效率和性能而设计的小型语言模型 (SLM),拥有 38 亿个参数,其结果与大型模型相比极具竞争力。Phi-3 具有资源效率高、可 扩展性强和灵活性高的特点,适合部署在资源有限的设备上。尽管体积较小, 但它通过数据集质量优化和有效参数利用,实现了与大型模型相当的性能。 在关键基准测试中,Phi-3型号明显优于相同尺寸和更大尺寸的语言型号。Phi-3-mini 比其两倍大小的模型表现更 好,Phi-3-small和 Phi-3-medium则比更大的模型表现更好,包括 GPT-3.5T。
Phi-3部署于Apple AI芯片上的测试
Phi3-mini是可在手机本地运行的高性能语言模型。由于体积小,它可以量化到 4bit,因此只占用 ≈ 1.8GB 的内存。该论文作者在配备 A16 Bionic 芯片的 iPhone 14 上部署了Phi-3-mini,在原生设备上完全离线运行,测试了量化后 的模型,每秒可生成超过 12 个tokens。
SLM的部署有望推动AI手机需求
我们认为目前手机芯片只体现出部分AI功能,并没有颠覆式的使用体验,AI体 验并不完善。自 ChatGPT 推出以来,使用大型语言模型(LLM)构建产品的 需求激增。Nvidia GPU(尤其是其A100 和 H100 芯片)在市场份额中占据主 导地位。据Tomshardware援引Financial Times预测, 2024 年 Nvidia H100 的出货量将在 150 万片到 200 万片之间,比2023年预计的 50 万片大幅增加。
高通骁龙8Gen3芯片
高通骁龙8Gen3芯片是针对终端上的生成式人工智能而开发的高通首个支持多 模式生成式人工智能模型的人工智能引擎。 Gen3支持仅在边端设备上运行的 大型语言模型 (LLM)、语言视觉模型 (LVM) 和基于变压器网络的自动语音识别 (ASR)。
高通骁龙X Elite与Copilot+ PC
(Copilot+ PC)引入了全新的系统架构,将CPU、GPU 以及全新的高性能神经 处理单元 (NPU) 的强大功能结合在一起。与Azure云中运行的大型语言模型 (LLM) 和小型语言模型 (SLM) 相连接并得到增强,Copilot+ PC现在可以达到 前所未有的性能水平。在运行人工智能工作负载方面,它们的性能提高了 20 倍,效率提高了 100 倍,并提供了业界领先的人工智能加速功能。
Copilot+ PC利用功能强大的处理器和多种先进的人工智能模型(包括多个微 软的世界级 SLM),可以直接在设备上本地运行。这消除了以前在延迟、成 本甚至隐私等方面的限制,能帮助用户提高工作效率、创造力和沟通效率。
联发科天玑9300芯片
联发科天玑9300芯片充分利用了今年业界一直追求的人工智能生成技术的进步。 其搭载的引擎即联发科第 7 代NPU架构内建硬件级的生成式AI引擎,能够实现 更快速且安全的边缘 AI 计算。与骁龙 8 Gen 3一样,天玑9300的APU 790 AI 处理器也从该品牌的 AI 生态系统中获得了帮助,使其能够利用大型语言模型 (LLM),如Meta Llama 2、百川 2、百度 AI LLM等。
同时,联发科完整的工具链,能够协助开发者在端侧快速且高效地部署多模态 生成式AI应用,为用户提供包括文字、图像、音乐等在内的终端侧生成式AI创 新体验。
苹果M4芯片
苹果全新M4芯片采用台积电第二代3nm工艺,拥有最高280亿个晶体管,支持 全新串联OLED显示引擎,其CPU性能比M2快50%,GPU性能比M2提升4倍; 内臵全新NPU,专门用于加速 AI 任务。这是 Apple 迄今最强大的神经网络引 擎,运算速度最高可达每秒 38 万亿次,支持每秒38万亿次 AI 计算处理能力, 比苹果A11芯片的神经网络引擎快可达60倍。结合中央处理器中的新一代机器 学习加速器、高性能图形处理器和更高的统一内存带宽,神经网络引擎为M4 芯片赋予超强性能,使之成为处理 AI 任务的理想芯片。
核心观点总结
我们有以下三个核心观点:
1.大型语言模型的强大催生了 GPU 算力和Al芯片的大量需求,我们认为小型语言模型的便捷性也能催生 AI手机芯片的需求,有望带来手机新的迭代潮。
2.目前手机芯片只体现出部分AI功能,并没有颠覆式的使用体验,AI体验并不完善。
3.AI手机芯片可能会改变包括手机在内的边端产品生态,甚至成为边端AI芯片的标杆。