Cohere开源North Mini Code：单张H100即可驱动的AI编码智能体

作者FinSage 2026年6月10日

对于构建智能代码流水线（Agentic Coding Pipelines）的工程团队而言，一个强有力的开源替代方案现已出现。Cohere 正式发布了名为 North Mini Code 的开源模型，旨在挑战由 Anthropic 提供的 Claude Fable 5 等托管式商业模型。该模型最大的核心竞争力在于其极高的部署效率：单张 NVIDIA H100 GPU 即可运行。

North Mini Code 采用了稀疏混合专家（MoE）架构，总参数量为 300 亿，但由于仅在每个 token 生成时激活 30 亿参数，其推理时的计算需求更接近于一个 30 亿参数的小型模型。Cohere 联合创始人 Nick Frosst 甚至演示了该模型在搭载 MLX 框架的 Mac Studio 上运行，仅占用约 20GB 内存，这意味着开发者可以直接在本地工作站上部署专业的编码智能体。

在功能定义上，North Mini Code 并非简单的通用模型微调，而是专门为“智能软件工程”打造。它支持 sub-agent（子智能体）编排、架构映射、代码审查以及终端操作。凭借 25.6 万 token 的超长上下文窗口和 6.4 万 token 的最大生成长度，该模型能够一次性处理大规模的多文件项目。此外，它在 Terminal-Bench v2 上经过了实战测试，能够熟练处理 shell 交互、包脚本和命令行工具，而非仅仅生成静态代码片段。

为了提升鲁棒性，Cohere 采用了多框架（Multi-harness）训练方案，在 SWE-Agent、Mini-SWE-Agent 和 OpenCode 三套不同的智能体脚手架上进行了训练，涵盖了从结构化 JSON 返回到原始 shell 输出的多种交互模式。在公开基准测试中，North Mini Code 的输出吞吐量比 Mistral Devstral Small 2 高出 2.8 倍，且在推理速度上表现惊人，每秒可生成 210 个 token。

然而，这款模型也存在一个明显的权衡点：冗余度（Verbosity）。独立测试机构 Artificial Analysis 指出，North Mini Code 在完成相同任务时生成的 token 数量是同类模型的三倍。在低频使用时这可能不明显，但在高吞吐量的生产环境下，这种过度冗余会直接转化为额外的推理成本和延迟。

对于企业级用户而言，North Mini Code 的发布标志着 AI 编码进入了“架构决策期”。企业现在必须在两种路径之间做出选择：一是追求极致性能且愿意支付高额费用（如 Claude Fable 5，每百万输出 token 成本高达 50 美元）的托管服务；二是追求数据主权、低成本且可本地部署的开源方案。Cohere 试图向业界证明，小型、透明且主权可控的模型，才是 LLM 发展的正确方向。

来源： ventureBeat report