Kimi K2.6 已发布【kourichat吧】

kourichat吧关注：139贴子：395

0回复贴，共1页

Kimi K2.6 已发布

月之暗面发布开源模型 Kimi K2.6，编程与智能体能力对标 GPT-5.4 和 Claude Opus 4.6
月之暗面正式发布最新开源大模型 Kimi K2.6。该模型主打前沿编程能力、长程执行与智能体集群（Agent Swarm）功能，现已通过 Kimi.com、Kimi App、API 和 Kimi Code 四个渠道上线，同时在 Hugging Face 开放权重下载。K2.6 延续 K2 系列的万亿参数 MoE（混合专家）架构，单次推理激活 32B 参数，采用修改版 MIT 许可证，基本允许自由使用。
在基准测试方面，K2.6 在多项编程和智能体任务上表现突出。SWE-Bench Pro 得分 58.6%、SWE-Bench Verified 达 80.2%；Humanity's Last Exam（带工具）得分 54.0%，超过 GPT-5.4（52.1%）、Claude Opus 4.6（53.0%）和 Gemini 3.1 Pro（51.4%）；DeepSearchQA F1 分数为 92.5%，Terminal-Bench 2.0 达到 66.7%。不过在纯推理基准如 AIME 2026 和 GPQA Diamond 上，GPT-5.4 和 Gemini 3.1 Pro 仍保持领先。
K2.6 的核心卖点在于长时间持续自主执行的能力。该模型支持超过 4000 次工具调用、连续执行超 12 小时的超长编程任务，并能跨编程语言（Rust、Go、Python 等）和跨任务类型（前端、运维、性能优化等）实现可靠泛化。官方展示的案例中，K2.6 自主重构了一个有 8 年历史的开源金融撮合引擎 exchange-core，历时 13 小时，执行 12 轮优化策略、超千次工具调用、修改逾 4000 行代码，最终将中位吞吐量提升 185%。
智能体集群能力是 K2.6 的另一大升级。该模型可水平扩展至 300 个子智能体、同时协调执行 4000 个步骤，相比 K2.5 的 100 个子智能体和 1500 个步骤大幅跃升，从根本上降低了端到端延迟。K2.6 还推出了研究预览功能"Claw Groups"，允许用户将来自任意设备、运行任意模型的智能体接入同一协作空间，由 K2.6 作为自适应协调器根据技能画像分配任务并自动处理故障。