Perplexity AI 推出端云混合推理调度系统：以“物理层调度”重定义 AI 算力分布

作者FinSage 2026年6月4日

在 Computex 2026 的 Intel 主旨演讲中，估值已达 200 亿美元的 AI 搜索新星 Perplexity AI 正式揭晓了其最新的技术突破——首款“端云混合本地-服务器推理调度器”（Hybrid Local-Server Inference Orchestrator）。该系统能够实现真正的实时、动态调度，在任务执行过程中自主决定哪些 AI 工作负载应留在用户的本地设备上，而哪些则被路由至云端的顶尖前沿模型。

Perplexity CEO Aravind Srinivas 与 Intel CEO Lip-Bu Tan 共同演示了该系统。在场景演示中，Perplexity 的“Personal Computer”智能体在处理一份高度机密的交易文件时，运行在 Intel Core Ultra Series 3 处理器上的本地模型自动识别出敏感信息，确保其留在设备端，而将涉及深层逻辑推理的非敏感任务发送至云端处理。Srinivas 指出，这种方法在智能化程度、准确性、隐私保护和成本之间取得了最佳平衡。

该技术的核心竞争力不在于能否在本地运行模型（这在目前已是常见功能），而在于其“自主路由”能力。用户无需预先设定，系统会逐项任务地进行实时分析：财务记录、健康数据等高度隐私信息被强制留在本地，而需要万亿级参数模型支撑的复杂推理则交由云端。这种“一个任务，多个执行点，自动编排”的模式，标志着 AI 从单纯的模型竞争转向了调度层的竞争。

此次发布的时间点极具战略考量。Computex 2026 的核心主题是“端侧 AI”，英伟达刚刚推出了旨在驱动 AI PC 的 Arm 架构超级芯片 RTX Spark，而 Intel 也在全力推其 Core Ultra 系列。Perplexity 的调度系统为用户和企业升级硬件提供了直接的经济动力：本地芯片性能越强，可本地化处理的推理就越多，从而降低云端成本并显著降低延迟。此外，这种方案还可能冲击“主权 AI 基础设施”的构建逻辑——如果敏感数据无需离开设备即可获得高性能推理，国家层面对本土数据中心的极度依赖可能会有所缓解。

从架构上看，Perplexity 坚持“调度层高于模型层”的哲学。通过将任务分解、状态管理与具体计算解耦，系统可以像更换插件一样在不同模型间切换。而现在的“端云混合”则是将这一逻辑从软件层面扩展到了物理硬件层面。

然而，Perplexity 的快速扩张也伴随着巨大的压力。尽管年度经常性收入（ARR）在 2026 年 3 月已突破 4.5 亿美元，但该公司正深陷版权泥潭，CNN、纽约时报等九家机构因版权侵权对其提起诉讼。对于正试图通过混合推理系统切入金融、医疗等受监管行业的企业级市场而言，这些未决的知识产权问题可能是其规模化采用的最大障碍。

随着 Google、微软、苹果等巨头纷纷构建自己的端云架构，Perplexity 试图通过更灵活、更自主的动态调度证明：在 AI 时代，最重要的计算机可能不是那个巨大的数据中心，而是就摆在用户桌面上的那一台。

来源： ventureBeat report