微软发布 Surface RTX Spark Dev Box：用本地算力挑战 AI “按量计费”模式 -

在近日举行的 Microsoft Build 2026 大会上，微软正式推出了 Surface RTX Spark Dev Box。这款紧凑型桌面计算机旨在让软件开发者在本地设备上运行大规模 AI 模型，从而摆脱对昂贵云端计算的依赖。这一举措直接挑战了自 ChatGPT 发布以来主导 AI 产业经济学的“按 Token 计费”模式。

硬件规格方面，Dev Box 搭载了英伟达基于 Blackwell 架构的全新 RTX Spark 处理器，并配备了 128GB 的统一内存。根据英伟达的数据，该设备可提供高达 1 petaflop 的 AI 算力。这意味着开发者可以在不发送任何 API 调用至云端的情况下，加载并运行参数量超过 1200 亿的巨型 AI 模型。

微软 Windows 与设备执行副总裁 Pavan Davuluri 在发布会前表示，此类设备的目标是流畅运行百亿级参数模型。他强调，除了模型规模，上下文窗口（Context Window）的容量同样关键。在 10 万个 Token 的上下文环境下，仅 KV 缓存（Key-Value Cache）就可能占用 40 至 50GB 内存，而 RTX Spark 的 128GB 统一内存池可由 CPU 和 GPU 动态共享，有效解决了这一痛点。

从战略角度看，此举标志着微软的一次重大转向。虽然 Azure 云服务为微软带来了数百亿美元的年收入，但开发者在快速迭代原型时，面对不可预测的 GPU 账单压力日益增大。微软试图通过 Dev Box 提供一个“压力释放阀”，让开发者在本地处理绝大多数常规开发任务，仅将最具挑战性的前沿问题交给云端模型。微软的逻辑是：掌控开发者从本地原型到云端部署的完整工作流，比单纯掌控云端拥有更深层的竞争壁垒。

在技术架构上，RTX Spark 采用了 SoC（系统级芯片）设计，将 ARM 架构 CPU 与 Blackwell GPU 融合，彻底打破了传统 Windows PC 中 CPU、独立 GPU、显存和系统内存四分八块的局面。这种统一内存访问（UMA）架构让本地运行大模型成为可能，而 Windows 操作系统也为此进行了深度优化，提升了 GPU 寻址上限并优化了调度逻辑。

外观设计上，该设备采用了极具创新性的 3D 打印铝制机身，整个机箱充当被动散热片。通过金属 3D 打印实现的复杂内部几何结构，优化了冷风吸入与散热效率，确保设备在进行长时间微调或推理任务时能保持安静且不过热。

针对开发者的痛点，微软为该机预装了高度定制的 Windows 11 Pro 镜像。设备开箱即用，预装了 PowerShell 7、配置好 GPU 穿透的 WSL 2，以及 VS Code、GitHub Copilot、Python 和 Node.js 等核心工具，旨在消除繁琐的环境配置时间。

面对竞争对手 Apple Mac Mini 的统一内存架构，微软强调 RTX Spark 处于不同的性能量级。更核心的优势在于 CUDA 生态——绝大多数 AI/ML 框架（如 PyTorch, TensorRT, llama.cpp 等）均针对英伟达 CUDA 栈进行了原生优化。这意味着开发者在 Dev Box 上使用的代码和工作流可以无缝迁移至云端 GPU 实例，实现了极高的可移植性。

此次发布是微软“非计量智能”（Unmetered Intelligence）三层硬件战略的一部分：底层由 Aion 1.0 系列小模型在设备端处理基础任务；中层由 RTX Spark 系列硬件处理大部分开发工作；顶层则由 Azure 云端处理极大规模模型。此外，GitHub Copilot CLI 的新功能 /fleet 将实现端云协同，由云端 Agent 制定计划，并将子任务分发给本地模型执行，从而在不牺牲质量的前提下降低成本。

目前的争议点在于，企业采购部门是否愿意将 AI 支出从“运营成本（OpEx，云端订阅）”转移回“资本支出（CapEx，购买硬件）”。但微软的逻辑很明确：与其让开发者按 Token 租用智能，不如让他们直接购买算力。

来源： ventureBeat report