打破内存之墙：苹果发布AFM 3架构，实现200亿参数端侧AI新突破

作者FinSage 2026年6月10日

在端侧AI（On-device AI）的演进过程中，内存容量一直是一个难以逾越的“硬伤”。由于绝大多数端侧AI模型要求完整的权重集必须驻留在DRAM（动态随机存取存储器）中，这极大地限制了端侧模型的参数规模，导致开发者必须在“能力强但依赖云端的模型”与“隐私性好但能力有限的端侧模型”之间做出妥协。

在近日举行的WWDC26上，苹果推出了第三代基础模型家族（AFM 3），通过一种颠覆性的架构设计正面突破了这一内存瓶颈。AFM 3家族由五款模型组成，涵盖了两款端侧模型和三款基于苹果私有云计算（Private Cloud Compute）的服务器端模型。其中，针对复杂推理和智能体工具调用（Agentic tool use）的 AFM 3 Cloud Pro 运行在谷歌云的英伟达GPU上，而端侧的 AFM 3 Core Advanced 则展示了苹果在硬件协同优化上的深厚功底。

AFM 3 Core Advanced 是一款拥有200亿参数的巨型端侧模型。其核心突破在于：它不再强行将全部权重加载至DRAM，而是将整个权重集存储在 NAND 闪存中。由于 NAND 到 DRAM 的带宽远低于模型推理所需的实时交换速度，苹果开发了一套名为“指令遵循剪枝”（Instruction-Following Pruning, IFP）的机制，将闪存作为模型的永久住所，而将 DRAM 仅作为临时工作缓冲区。

该架构的运作逻辑分为三个关键维度：

首先，权重存储重心转移。完整的200亿参数集驻留在闪存中，彻底解除了端侧模型对物理内存容量的绝对依赖。

其次，改变路由决策频率。传统的混合专家模型（MoE）在生成每个 token 时都需要路由器选择不同的专家，这要求权重在闪存和内存之间高频交换，目前的硬件带宽无法支撑。苹果采取了“每条提示词路由一次”（Route once per prompt）的方案——模型在接收到查询时，一次性预测该任务所需的专家集并加载到内存中，随后用这组固定配置生成所有 token。

最后，实现激活参数的弹性伸缩。AFM 3 Core Advanced 能够根据任务复杂度动态调整激活参数量，简单操作仅激活10亿参数，复杂任务则最高可调用40亿参数，所有激活部分均从闪存的200亿参数池中抽取。

尽管该架构在理论上极具突破性，但苹果目前披露的信息仍存在缺失。开发者指出，官方文档中尚未提及能耗、内存带宽压力以及发热量等决定生产环境可行性的核心指标。此外，端侧请求在何种触发条件下会透明地卸载（offload）到私有云端，目前也缺乏明确定义，这对于有严格合规要求的企业级用户而言是一个潜在的风险点。

对于企业架构师而言，这意味着端侧AI智能体（AI Agents）的性能上限已被大幅提升。企业现在拥有了一个无需云端往返即可运行的200亿参数本地选项，竞争维度已从“模型能力”转向了“设备硬件”。然而，这种端云结合的架构也引入了新的依赖：高性能的服务器端推理依然依赖于谷歌云的基础设施。苹果计划在今年夏天发布完整的技术报告和基准测试数据，届时将揭晓该方案在大规模部署中的真实表现。

来源： ventureBeat report