打破“内存之墙”:苹果发布AFM 3架构,实现200亿参数端侧AI新突破
在端侧AI(On-device AI)的发展进程中,内存容量一直是制约模型能力的“硬伤”。由于传统的端侧AI模型要求完整的权重数据集必须驻留在动态随机存取存储器(DRAM)中,这导致其实际参数规模远低于云端部署的模型。对于需要部署智能体(Agentic workloads)的企业架构师而言,这迫使他们在能力强大的云端模型与功能受限的本地模型之间做出艰难选择。
在WWDC26上,苹果推出了第三代基础模型家族(AFM 3),试图彻底打破这一内存约束。AFM 3系列是苹果与谷歌合作开发的,涵盖五款模型:两款端侧模型和三款服务器端模型,所有模型均在苹果的私有云计算(Private Cloud Compute)边界内运行。其中,用于复杂推理和工具调用的服务器端模型 AFM 3 Cloud Pro 运行在谷歌云的英伟达GPU上;而端侧架构则完全由苹果自主设计。其中最受瞩目的 AFM 3 Core Advanced 是一款拥有200亿参数的模型,其核心突破在于将权重存储在 NAND 闪存而非 DRAM 中。
这一架构的创新在于解决了闪存到内存带宽过低的问题。在标准的混合专家模型(MoE)中,路由器需要根据每个生成的 Token 实时切换专家权重,这对带宽要求极高,闪存无法支撑。为此,苹果开发了一种名为“指令遵循剪枝”(Instruction-Following Pruning, IFP)的技术。不同于传统的 MoE,AFM 3 Core Advanced 在每个提示词(Prompt)阶段仅进行一次路由决策,选定一组固定专家并将其加载至 DRAM 缓冲区,随后通过该配置生成所有 Token。
具体而言,该架构包含三个关键设计:首先,200亿参数的完整权重集永久存储在闪存中,DRAM 仅作为工作缓冲区;其次,路由决策从“每 Token 一次”变为“每提示词一次”,大幅降低了对带宽的依赖;最后,模型可根据任务复杂度动态调整激活参数量,从简单的 10 亿参数扩展至最高 40 亿参数。
尽管技术论文详细阐述了内存设计和稀疏激活机制,但苹果在实际部署的限制方面仍较为保守。开发者和分析师指出,目前的文档中缺乏关于能效、内存带宽和散热等关键生产指标,且关于端侧请求何时透明地卸载(Offload)到云端的逻辑尚未公开,这对于需要严格合规证明推理位置的企业而言是一个潜在的挑战。
对于企业架构师而言,AFM 3 的出现意味着端侧智能体的“内存墙”已被推后。企业现在拥有了一个 200 亿参数的本地化选项,约束点从“模型能力”转移到了“设备硬件”。此外,隐私与云端的界限由此变成了一项架构决策而非默认设置:简单请求留在本地,复杂任务则路由至私有云。不过,需要注意的是,其服务器端层级依然依赖谷歌云的基础设施,虽然私有云计算保证了数据隐私,但未能消除对第三方云服务商的依赖。
苹果已表示,一份包含基准测试的完整技术报告将于今年夏天发布,届时将揭晓该方案在大规模部署中的实际可行性。
来源: ventureBeat report
