月之暗面发布开源模型 Kimi K2.6,编程与智能体能力对标 GPT-5.4 和 Claude Opus 4.6
月之暗面正式发布最新开源大模型 Kimi K2.6。该模型主打前沿编程能力、长程执行与智能体集群(Agent Swarm)功能,现已通过 Kimi.com、Kimi App、API 和 Kimi Code 四个渠道上线,同时在 Hugging Face 开放权重下载。K2.6 延续 K2 系列的万亿参数 MoE(混合专家)架构,单次推理激活 32B 参数,采用修改版 MIT 许可证,基本允许自由使用。
在基准测试方面,K2.6 在多项编程和智能体任务上表现突出。SWE-Bench Pro 得分 58.6%、SWE-Bench Verified 达 80.2%;Humanity's Last Exam(带工具)得分 54.0%,超过 GPT-5.4(52.1%)、Claude Opus 4.6(53.0%)和 Gemini 3.1 Pro(51.4%);DeepSearchQA F1 分数为 92.5%,Terminal-Bench 2.0 达到 66.7%。不过在纯推理基准如 AIME 2026 和 GPQA Diamond 上,GPT-5.4 和 Gemini 3.1 Pro 仍保持领先。
K2.6 的核心卖点在于长时间持续自主执行的能力。该模型支持超过 4000 次工具调用、连续执行超 12 小时的超长编程任务,并能跨编程语言(Rust、Go、Python 等)和跨任务类型(前端、运维、性能优化等)实现可靠泛化。官方展示的案例中,K2.6 自主重构了一个有 8 年历史的开源金融撮合引擎 exchange-core,历时 13 小时,执行 12 轮优化策略、超千次工具调用、修改逾 4000 行代码,最终将中位吞吐量提升 185%。
智能体集群能力是 K2.6 的另一大升级。该模型可水平扩展至 300 个子智能体、同时协调执行 4000 个步骤,相比 K2.5 的 100 个子智能体和 1500 个步骤大幅跃升,从根本上降低了端到端延迟。K2.6 还推出了研究预览功能"Claw Groups",允许用户将来自任意设备、运行任意模型的智能体接入同一协作空间,由 K2.6 作为自适应协调器根据技能画像分配任务并自动处理故障。

月之暗面正式发布最新开源大模型 Kimi K2.6。该模型主打前沿编程能力、长程执行与智能体集群(Agent Swarm)功能,现已通过 Kimi.com、Kimi App、API 和 Kimi Code 四个渠道上线,同时在 Hugging Face 开放权重下载。K2.6 延续 K2 系列的万亿参数 MoE(混合专家)架构,单次推理激活 32B 参数,采用修改版 MIT 许可证,基本允许自由使用。
在基准测试方面,K2.6 在多项编程和智能体任务上表现突出。SWE-Bench Pro 得分 58.6%、SWE-Bench Verified 达 80.2%;Humanity's Last Exam(带工具)得分 54.0%,超过 GPT-5.4(52.1%)、Claude Opus 4.6(53.0%)和 Gemini 3.1 Pro(51.4%);DeepSearchQA F1 分数为 92.5%,Terminal-Bench 2.0 达到 66.7%。不过在纯推理基准如 AIME 2026 和 GPQA Diamond 上,GPT-5.4 和 Gemini 3.1 Pro 仍保持领先。
K2.6 的核心卖点在于长时间持续自主执行的能力。该模型支持超过 4000 次工具调用、连续执行超 12 小时的超长编程任务,并能跨编程语言(Rust、Go、Python 等)和跨任务类型(前端、运维、性能优化等)实现可靠泛化。官方展示的案例中,K2.6 自主重构了一个有 8 年历史的开源金融撮合引擎 exchange-core,历时 13 小时,执行 12 轮优化策略、超千次工具调用、修改逾 4000 行代码,最终将中位吞吐量提升 185%。
智能体集群能力是 K2.6 的另一大升级。该模型可水平扩展至 300 个子智能体、同时协调执行 4000 个步骤,相比 K2.5 的 100 个子智能体和 1500 个步骤大幅跃升,从根本上降低了端到端延迟。K2.6 还推出了研究预览功能"Claw Groups",允许用户将来自任意设备、运行任意模型的智能体接入同一协作空间,由 K2.6 作为自适应协调器根据技能画像分配任务并自动处理故障。










