2026年DeepSeek V3.1未发布模型卡片却依旧排名第四,它到底更新了啥?它与 GPT-5 相比又如何?

DeepSeek V3.1未发布模型卡片却依旧排名第四,它到底更新了啥?它与 GPT-5 相比又如何?今天 DeepSeek 正式发文把 V3 1 推上前台 前两天还只是在群里简单通知一下 即便还未公布模型卡 DeepSeek V3 1 就已经在 Hugging Face 的趋势榜上排到了第四 But 连官方文章都没有 搞得用户云里雾里不知道 V3 1 具体更新了些什么 而就在今天下午 官方终于发布了 V3 1 相关更新文章 DeepSeek V3 1 发布 迈向 Agent 时代的第一步

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



今天,DeepSeek 正式发文把 V3.1 推上前台,前两天还只是在群里简单通知一下,即便还未公布模型卡,DeepSeek V3.1就已经在Hugging Face的趋势榜上排到了第四。

But连官方文章都没有,搞得用户云里雾里不知道 V3.1 具体更新了些什么

而就在今天下午,官方终于发布了V3.1相关更新文章👇

DeepSeek-V3.1 发布,迈向 Agent 时代的第一步

这一版的主题很鲜明:把“思考模式(Reasoning)”与“普通对话”合到一套模型里,再把工具调用与智能体(Agent)能力一并补强。

而说起DeepSeek,我们不免会想到前不久上线,且成为 ChatGPT 的默认引擎 —— OpenAI GPT-5 这个强有力的对手了。

那两者路线不同、侧重点不同——到底怎么选?下面把最重要的变化、对比与上手路径一次说清。

  • 混合推理架构:V3.1 兼容“思考/非思考”两种聊天模板;API 侧直接映射为 (思考)与 (非思考)。官网更新日志已确认两者均已升级为 V3.1
  • 模板与上下文:开源权重的 显示 为 (约 128K);新版 chat template 引入 片段与更清晰的工具调用占位
  • Agent 能力显著增强:后训练优化带来工具使用与智能体任务的大幅提升;在代码与搜索类智能体评测上,V3.1 的分数整体高于前代,例如编码方面SWE-bench Verified 66.0%, 数学方面AIME 2025 88.4%(详细参数见官文)
  • 工具/函数调用: 非思考模式支持 Function Calling 与严格 JSON;
  • Agent 生态更顺手:新增 Anthropic API 兼容层,可把 DeepSeek 挂进 Claude Code 流程里,无缝融入现有工程链路。

App/网页端也同步了“深度思考”开关,可在界面上自由切换模式,最明显变化就是,DeepSeek 在官方 APP 和网页版上,从“深度思考(R1)”中删除了“R1”。

  • 上下文:400K 窗口、128K 最大输出
  • 编码与推理:官方给出 SWE-bench Verified 74.9%、Aider-Polyglot 88%,并强调在同等任务上较 o3 更省输出 token 与工具调用
  • 数学:AIME 2025 94.6%(无工具)
  • 工具智能:能稳定串并联多次工具调用,长链路任务更稳。
  • 价格(API):输入 \(1.25</strong> &#x2F; 百万 tokens,缓存输入 <strong>\)0.125 ,输出 \(10</strong>;另有 mini &#x2F; nano 低价档。</p> </li> </ul> <blockquote> <p>官网参考文档:</p> <p>https://openai.com/index/introducing-gpt-5/?utm_source=chatgpt.com</p> </blockquote> <blockquote> <p>说明:仅纳入 双方均有官方&#x2F;模型卡数值 的基准;DeepSeek 若区分思考&#x2F;非思考,取更强的“思考”版本一并列示。</p> </blockquote> <div> <thead> <tr> <th>任务&#x2F;基准</th> <th align="right"><strong>DeepSeek-V3.1(Think)</strong></th> <th align="right"><strong>GPT-5</strong></th> <th>备注</th> </tr> </thead> <tbody><tr> <td><strong>SWE-bench Verified</strong>(真实软件缺陷修复)</td> <td align="right"><strong>66.0%</strong> (<em>V3.1-NonThinking</em>,Agent 模式)</td> <td align="right"><strong>74.9%</strong></td> <td>DS 官方以内部 Agent 框架跑分;仍可视作同一任务族对比</td> </tr> <tr> <td><strong>Aider-Polyglot</strong>(多语种代码编辑)</td> <td align="right"><strong>76.3%</strong></td> <td align="right"><strong>88%</strong></td> <td>官方均给出明确百分比</td> </tr> <tr> <td><strong>AIME 2025</strong>(数学)</td> <td align="right"><strong>88.4%</strong></td> <td align="right"><strong>94.6%</strong> (无工具)</td> <td>同为 Pass@1</td> </tr> </tbody></div> <ol> <li><p><strong>编码&amp;修复</strong>:在 SWE-bench Verified 和 Aider-Polyglot 上,GPT-5 领先 6.9–11.7 个百分点,属于稳定领先。</p> </li> <li><p><strong>数学推理</strong>:AIME 2025 上 GPT-5 领先 6.2 个百分点,也是明确领先。</p> </li> </ol> <p>因此,仅看双方共同公开的权威基准,GPT-5 整体领先一个梯级;DeepSeek-V3.1 在成本&#x2F;开源&#x2F;可控方面具现实优势,工程落地性强。</p> <div> <thead> <tr> <th>维度</th> <th><strong>DeepSeek-V3.1</strong></th> <th><strong>GPT-5</strong></th> </tr> </thead> <tbody><tr> <td>模型形态</td> <td>同一模型双模板:(非思考)&#x2F;(思考),前端“深度思考”开关</td> <td>统一系统 + 自动路由;可显式切换到 <strong>Thinking</strong></td> </tr> <tr> <td>上下文</td> <td>128K(开源权重配置);API 以定价&#x2F;模型页为准</td> <td><strong>400K</strong> 上下文,<strong>128K</strong> 最大输出</td> </tr> <tr> <td>工具&#x2F;函数调用</td> <td>非思考:支持;思考:<strong>不直接支持</strong>(传 会回落到 )</td> <td>强化的并行&#x2F;串行工具链、鲁棒错误处理、长链检索优化</td> </tr> <tr> <td>结构化输出</td> <td>JSON Output(严格 JSON 返回)</td> <td>函数调用 + 结构化输出,生态配套完善</td> </tr> <tr> <td>Agent 生态</td> <td>新增 <strong>Anthropic API</strong> 兼容(Claude Code 直连)</td> <td>ChatGPT 原生生态(搜索&#x2F;文件&#x2F;图像&#x2F;任务),路线更“全集成”</td> </tr> <tr> <td>开源&#x2F;可控</td> <td><strong>权重开源</strong>(Base&#x2F;后训),可私有化&#x2F;微调</td> <td>闭源商用,胜在产品整合与服务保障</td> </tr> <tr> <td>价格带(API)</td> <td>价目将 9月6日凌晨变更并取消夜间折扣</td> <td>GPT-5:input \)1.25 / output $10(百万tokens),有 mini/nano 梯度 适配场景 私有化可控、成本敏感、需要深度定制的 Agent/应用 统一入口追求最强通用生产力、复杂多工具链路任务
    • 要“最强通用生产力/端内一体化” :优先GPT-5:400K 窗口 + 更强的编码&数学 + 事实性显著提升,复杂多工具链路更稳。
    • 要“开源可控/私有化/成本敏感” : 优先DeepSeek-V3.1:128K 权重、模板清晰、Function Calling/JSON/Anthropic 兼容,工程改造友好。
    • 团队落地:推荐混合路由——日常与私有任务走 V3.1,超长上下文/关键链路切 GPT-5,兼顾成本与效果。
    • 做搜索/代码类智能体:两者都能做;V3.1 在公开卡片上的 Agent 指标很亮眼,GPT-5 胜在并行工具与稳定性。

    官方 App 与网页端模型已同步升级为 DeepSeek-V3.1。用户可以通过“深度思考”按钮,实现思考模式与非思考模式的自由切换。

    官网: https://chat.deepseek.com/

    按 OpenAI 官方的说法:

    • 免费用户能用基础版 GPT-5
    • Plus / Pro 用户能用更强的推理版本
    • 团队用户直接享受 Pro 级权限

    如果你有自己的GPT账号,但不知道怎么升级订阅的话,也可以试试我们的OpenAI代充系统

    不用折腾、不用信用卡、不用等卡商回消息,自己动手,真的就是 2 分钟的事

    升级网址:gptplus.uno

    详细教程见往期文章👇

    GPT Plus升级失败?没有虚拟卡、海外信用卡怎么办?全新技术实现24小时自助直充升级GPT

    但问题来了—— 有一些国内用户没魔法、没海外账号,直接用官方渠道门槛很高。

    这时候,就得靠 国内镜像站👉 chatshare.biz 了

    卡密获取可前往 chatshare.uno

    1:1 复刻 ChatGPT 官网,不是对接 API,可以直接使用,独享账号,非共享,无需魔法、无需海外邮箱、无需 API Key,直接打开浏览器就能用 GPT-5!比各AI模型官方 20 美元 的订阅费用还便宜,而且还支持购买 1 天、7 天试用!!!

    有哪些模型?

    不仅 GPT-5,全套热门大模型都给你配齐:

    • GPT-5 系列
    • 最新 Claude Opus 4.1 / Claude 4 Sonnet
    • GPT-4o 绘图
    • GPT-o3
    • Gemini 2.5 Pro
    • Grok 4 ……

    不管你是学生、上班族,还是纯好奇党,都可以实现即用即走。

    • 只看共同权威基准:GPT-5 明确领先;
    • 看工程落地与可控性:DeepSeek-V3.1 更省、更开源、更好改;
    • 真正实用的答案:把两者接在一起,用在各自最擅长的地方。

    最后感谢大家能够看到文章的最后,如果你觉得这篇文章对你有启发或者帮助,不妨点个关注,你的支持将是我最大的动力,谢谢!

小讯
上一篇 2026-03-13 16:13
下一篇 2026-03-13 16:15

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/216713.html