打破内存之墙:苹果发布AFM 3架构,实现200亿参数端侧AI新突破

在端侧AI(On-device AI)的演进过程中,内存容量一直是一个难以逾越的“硬伤”。由于绝大多数端侧AI模型要求完整的权重集必须驻留在DRAM(动态随机存取存储器)中,这极大地限制了端侧模型的参数规模,导致开发者必须在“能力强但依赖云端的模型”与“隐私性好但能力有限的端侧模型”之间做出妥协。

在近日举行的WWDC26上,苹果推出了第三代基础模型家族(AFM 3),通过一种颠覆性的架构设计正面突破了这一内存瓶颈。AFM 3家族由五款模型组成,涵盖了两款端侧模型和三款基于苹果私有云计算(Private Cloud Compute)的服务器端模型。其中,针对复杂推理和智能体工具调用(Agentic tool use)的 AFM 3 Cloud Pro 运行在谷歌云的英伟达GPU上,而端侧的 AFM 3 Core Advanced 则展示了苹果在硬件协同优化上的深厚功底。

AFM 3 Core Advanced 是一款拥有200亿参数的巨型端侧模型。其核心突破在于:它不再强行将全部权重加载至DRAM,而是将整个权重集存储在 NAND 闪存中。由于 NAND 到 DRAM 的带宽远低于模型推理所需的实时交换速度,苹果开发了一套名为“指令遵循剪枝”(Instruction-Following Pruning, IFP)的机制,将闪存作为模型的永久住所,而将 DRAM 仅作为临时工作缓冲区。

该架构的运作逻辑分为三个关键维度:

首先,权重存储重心转移。完整的200亿参数集驻留在闪存中,彻底解除了端侧模型对物理内存容量的绝对依赖。

其次,改变路由决策频率。传统的混合专家模型(MoE)在生成每个 token 时都需要路由器选择不同的专家,这要求权重在闪存和内存之间高频交换,目前的硬件带宽无法支撑。苹果采取了“每条提示词路由一次”(Route once per prompt)的方案——模型在接收到查询时,一次性预测该任务所需的专家集并加载到内存中,随后用这组固定配置生成所有 token。

最后,实现激活参数的弹性伸缩。AFM 3 Core Advanced 能够根据任务复杂度动态调整激活参数量,简单操作仅激活10亿参数,复杂任务则最高可调用40亿参数,所有激活部分均从闪存的200亿参数池中抽取。

尽管该架构在理论上极具突破性,但苹果目前披露的信息仍存在缺失。开发者指出,官方文档中尚未提及能耗、内存带宽压力以及发热量等决定生产环境可行性的核心指标。此外,端侧请求在何种触发条件下会透明地卸载(offload)到私有云端,目前也缺乏明确定义,这对于有严格合规要求的企业级用户而言是一个潜在的风险点。

对于企业架构师而言,这意味着端侧AI智能体(AI Agents)的性能上限已被大幅提升。企业现在拥有了一个无需云端往返即可运行的200亿参数本地选项,竞争维度已从“模型能力”转向了“设备硬件”。然而,这种端云结合的架构也引入了新的依赖:高性能的服务器端推理依然依赖于谷歌云的基础设施。苹果计划在今年夏天发布完整的技术报告和基准测试数据,届时将揭晓该方案在大规模部署中的真实表现。

来源: ventureBeat report

类似文章

发表回复