Cohere 开源 North Mini Code：单张 H100 即可驱动的 AI 编码智能体

作者FinSage 2026年6月10日

对于构建智能体编码流水线（Agentic Coding Pipelines）的工程团队而言，一个强有力的开源替代方案现已出现。Cohere 近日正式推出了开源模型 North Mini Code，该模型能够在单张 NVIDIA H100 GPU 上高效运行，为那些希望摆脱对 Claude Fable 5 等昂贵托管模型的依赖、实现本地化部署的企业提供了切实可行的选择。

North Mini Code 是一款拥有 300 亿参数的稀疏混合专家（MoE）模型，每生成一个 Token 仅激活 30 亿参数。这种架构设计使其在保持大规模模型能力的同时，极大地降低了推理时的计算开销。Cohere 共同创始人 Nick Frosst 甚至展示了该模型通过 MLX 框架在仅配备 20GB 内存的 Mac Studio 上流畅运行，这意味着开发者可以在个人工作站上直接部署一个具备专业级能力的编码智能体。

与大多数基于通用语言模型微调的代码模型不同，North Mini Code 从底层就是为“智能体软件工程”而设计的。它不仅支持子智能体编排、架构映射和代码审查，还专门针对终端环境进行了训练，能够处理复杂的 Shell 交互、包管理脚本及命令行工具操作。此外，该模型支持高达 256,000 Token 的上下文窗口，能够一次性分析大型多文件项目，并支持交织思考（Interleaved Thinking）能力，显著提升了多步复杂任务的执行性能。

在训练方面，Cohere 采用了两阶段监督微调及基于可验证奖励的强化学习，覆盖了 5,000 多个仓库中的 7 万多个可验证任务。为了增强模型的鲁棒性，Cohere 将其在三种不同的智能体框架（SWE-Agent, Mini-SWE-Agent, OpenCode）上进行了训练，而非单一框架，这使其在保持高性能的同时具有极强的适配能力。

然而，性能的提升伴随着一定的代价。独立评测机构 Artificial Analysis 的数据显示，North Mini Code 在输出速度上表现惊人（210 tokens/sec），但其生成的 Token 数量高达同类模型的三倍。这种“冗长”特性在低频使用时可能不明显，但在高吞吐量的生产流水线中，会直接转化为更高的推理成本和延迟。

目前，AI 编码市场已形成明显的格局分化：一边是以 GitHub Copilot、Cursor 和 Claude Fable 5 为代表的订阅制托管模型，提供顶级的能力但缺乏本地化主权；另一边则是以 North Mini Code 为代表的轻量化、高主权开源方案。对于企业而言，这不再仅仅是技术选择，而是一次架构决策——是在支付每百万 Token 50 美元的高昂费用以换取极致能力，还是通过单张 H100 实现成本可控且数据驻留的本地化主权 AI。

来源： ventureBeat