Perplexity AI 推出端云混合推理调度系统:以“物理层调度”重定义 AI 算力分布
在 Computex 2026 的 Intel 主旨演讲中,估值已达 200 亿美元的 AI 搜索新星 Perplexity AI 正式揭晓了其最新的技术突破——首款“端云混合本地-服务器推理调度器”(Hybrid Local-Server Inference Orchestrator)。该系统能够实现真正的实时、动态调度,在任务执行过程中自主决定哪些 AI 工作负载应留在用户的本地设备上,而哪些则被路由至云端的顶尖前沿模型。
Perplexity CEO Aravind Srinivas 与 Intel CEO Lip-Bu Tan 共同演示了该系统。在场景演示中,Perplexity 的“Personal Computer”智能体在处理一份高度机密的交易文件时,运行在 Intel Core Ultra Series 3 处理器上的本地模型自动识别出敏感信息,确保其留在设备端,而将涉及深层逻辑推理的非敏感任务发送至云端处理。Srinivas 指出,这种方法在智能化程度、准确性、隐私保护和成本之间取得了最佳平衡。
该技术的核心竞争力不在于能否在本地运行模型(这在目前已是常见功能),而在于其“自主路由”能力。用户无需预先设定,系统会逐项任务地进行实时分析:财务记录、健康数据等高度隐私信息被强制留在本地,而需要万亿级参数模型支撑的复杂推理则交由云端。这种“一个任务,多个执行点,自动编排”的模式,标志着 AI 从单纯的模型竞争转向了调度层的竞争。
此次发布的时间点极具战略考量。Computex 2026 的核心主题是“端侧 AI”,英伟达刚刚推出了旨在驱动 AI PC 的 Arm 架构超级芯片 RTX Spark,而 Intel 也在全力推其 Core Ultra 系列。Perplexity 的调度系统为用户和企业升级硬件提供了直接的经济动力:本地芯片性能越强,可本地化处理的推理就越多,从而降低云端成本并显著降低延迟。此外,这种方案还可能冲击“主权 AI 基础设施”的构建逻辑——如果敏感数据无需离开设备即可获得高性能推理,国家层面对本土数据中心的极度依赖可能会有所缓解。
从架构上看,Perplexity 坚持“调度层高于模型层”的哲学。通过将任务分解、状态管理与具体计算解耦,系统可以像更换插件一样在不同模型间切换。而现在的“端云混合”则是将这一逻辑从软件层面扩展到了物理硬件层面。
然而,Perplexity 的快速扩张也伴随着巨大的压力。尽管年度经常性收入(ARR)在 2026 年 3 月已突破 4.5 亿美元,但该公司正深陷版权泥潭,CNN、纽约时报等九家机构因版权侵权对其提起诉讼。对于正试图通过混合推理系统切入金融、医疗等受监管行业的企业级市场而言,这些未决的知识产权问题可能是其规模化采用的最大障碍。
随着 Google、微软、苹果等巨头纷纷构建自己的端云架构,Perplexity 试图通过更灵活、更自主的动态调度证明:在 AI 时代,最重要的计算机可能不是那个巨大的数据中心,而是就摆在用户桌面上的那一台。
来源: ventureBeat report
