AI 竞品情报
线上 · resumization.cn
← 时间线|DeepSeek Platform 全部动态 →
DeepSeek Platform里程碑新发布changelog发生于 2025-08-21

DeepSeek-V3.1:混合推理架构,Agent 能力大幅提升

DeepSeek-V3.1: Hybrid Reasoning Architecture with Major Agent Improvements

https://api-docs.deepseek.com/updates

对我们的启示

💡
要做混合推理架构是模型架构范式创新,统一 thinking/non-thinking 对 DX 和模型管理意义重大;SWE-bench 成绩表明 Coding Agent 能力已是核心竞争维度,我们必须对标。

战略视角

战略意图:V3.1 的混合推理架构是 DeepSeek 从「分模型」走向「统一模型」的关键转折——用户不再需要在 chat 和 reasoner 两个模型间切换,系统自动判断是否需要深度推理。这种架构简化了开发者体验,也降低了 API 调用复杂度。影响面:直接惠及所有 Agent 开发者——单一模型同时具备快速响应和深度推理能力,对构建复杂 Agent 工作流至关重要。赛道占位:SWE-bench Verified 66.0 和 Terminal-bench 31.3 的公布说明 DeepSeek 正式将 Coding Agent 作为公开 benchmark 竞争赛道,这对我们的 Agent Runtime 产品定位形成直接对标压力。窗口期:混合推理架构已成为行业方向(Claude、Gemini 也在推进),我们需要评估自身模型是否支持类似统一架构,以及如何在平台上向开发者暴露这一能力。

一句话摘要

DeepSeek-V3.1 首次实现混合推理架构(单模型双模式),在 SWE-bench 和 Terminal-bench 上取得突破,Agent 和工具使用能力成为核心升级方向。

详细描述

DeepSeek-V3.1 introduces a hybrid reasoning architecture where a single model supports both thinking and non-thinking modes. Key benchmarks: SWE-bench Verified 66.0, SWE-bench Multilingual 54.5, Terminal-bench 31.3. Major improvements in tool usage and agent tasks, with significantly reduced thinking time vs DeepSeek-R1-0528.

V3.1 引入混合推理架构,单一模型同时支持思维和非思维模式。SWE-bench Verified 达 66.0,工具使用和 Agent 任务有重大改进,推理时间相比 R1-0528 显著缩短。

原文摘录

Hybrid reasoning architecture: A single model supports both thinking mode and non-thinking mode. Enhanced agent capabilities: With post-training optimization, the new model achieves major improvements in tool usage and intelligent agent tasks. SWE-bench Verified: 66.0, SWE-bench Multilingual: 54.5, Terminal-bench: 31.3.