目前为止，claude确实是写代码最强的大模型吗？

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

与gemini相比怎么样？claude具体哪个版本号的大模型是代码能力最强的？是3.7sonnet还是4系列的？

编程能力：GPT-5 Codex > Claude Sonnet 4.5 > GPT-5 > Gemini 2.5 Pro

首先可以明确的是，四大模型给出的代码都没有bug，测试通过率都是100%，牛逼。

AI编程发展到如今这个程度，除了还需要人工配合外，其它的内容貌似都能干了。

程序员只负责使用AI辅助编程 + 抽烟摸鱼了。

GPT-5 Codex给出了解题思路与算法分析（包含问题本质、采用的数据结构和算法）、详细的Java 代码、详细的代码注释、对Java代码进行自测、测试用例及说明（包含边界用例）。

1、只有GPT-5 Codex对Java代码进行自测、给出了边界测试用例，小胜一筹。

2、Claude Sonnet 4.5作为Anthropic的最新旗舰模型，表现亮眼，但未给出边界测试用例，屈居第二。

3、GPT-5不是一次性完成，是通过多次连续提问，才给出了最后的答案，差评，但上下文较长，加分项。

4、Gemini 2.5 Pro没有明确表示对给出的代码进行自测、也未给出了边界测试用例。

谷歌浏览器访问：www.nezhasoft.cloud

私信哪吒，备注体验ai，领取体验码。

包含GPT-5、GPT-5 Thinking、GPT‑5 Codex、Sora2、Claude Sonnet 4.5、Gemini 2.5 Pro、Grok4、DeepSeek R1 0528等模型。

准确性：通过本地IDEA自测，通过率100%

GPT-5 Codex给出了解题思路与算法分析（包含问题本质、采用的数据结构和算法）、详细的Java 代码、详细的代码注释、对Java代码进行测试、测试用例及说明（包含边界用例）。

准确性：通过本地IDEA自测，通过率100%

Claude Sonnet 4.5给出了解题思路与算法分析（包含问题本质、采用的数据结构和算法）、详细的Java 代码、详细的代码注释、测试用例及说明（不包含边界用例）。

准确性：通过本地IDEA自测，通过率100%

GPT-5给出了解题思路、算法步骤、详细的Java 代码、详细的代码注释、对Java代码进行自测、测试用例及说明（不包含边界用例）。

回答中没有明确表明：对Java代码测试用例自测。

Gemini 2.5 Pro给出了解题思路与算法分析（包含问题本质、采用的数据结构和算法）、详细的Java 代码、详细的代码注释、测试用例及说明（不包含边界用例）。

如何用好 Codex？OpenAI 内部**实践指南：8 个**应用场景

重磅更新！Claude Sonnet 4.5发布，编程最强模型

重磅更新！满血GPT-5上线，全方位提升，很强

谷歌Gemini 2.5 Pro正式版，科技拯救牛马，编程反超claude opus 4，国内直接使用

最近我尝试用Claude Sonnet 4.5帮我生成小说，最终生成了7万多字。这部小说生成的质量相当不错，内容非常丰富。最近我也看到网友反馈说Sonnet 4.5在人文方面的回答非常深入人心，感觉对面是一个真人在和你对话。以前我用Claude 3的时候，就特别喜欢用它来处理写作问题。Sonnet 4.5经过我使用DAG来生成脚本，然后让它生成小说，我觉得它的质量做得相当不错。

我们先来看一下这个小说的章节，这里总共有16章，是让它作为一个热血穿越小说。我们可以看一下每个章节的主题，主角是林牧，这里可以了解一下世界观设定。我们可以看到这里有历史脉络、势力分布，还有核心设定。它还有一个修炼体系，这些也非常有意思。而且我看了全文，基本上它在文中使用的设定都是正确的，还有一些爽点设计、节奏设计、核心冲突递进、关键物品等总体特色。

我们再看一下这个小说的分析。它会有多个人物，有中立的主角阵营，就是通过林牧，他有伙伴关系、救命之恩，还有兄弟关系。有敌对势力，还有一些深渊之眼，就是这个小说里的反派，还有一个青云盟。剧情方面放大的话可以看到，一开始是奇时的觉醒，然后是立足。

之后是一剂危机，再是孤胆英雄，然后是联盟建立。五行之旅，还有修复和重生。我们再看一下它的修炼体系，主要是一开始有一个青云洞府，里面有特殊的力量，需要对抗激变之力。

还有深渊之眼。境界方面，刚刚提到有三个不同境界。远期目标是要达到最强的仙君级，核心功法是青云御凝诀。

再看地理分布，分为五个地方。毗凝谷里还有生命之泉。

核心冲突和矛盾也非常有意思，包括道德选择、势力对抗、资源匮乏、身份转化，以及小说里的任务流程。清元盟兵分五路到不同地方破阵，他们要取得相当于秘籍的物品。7天内是否集齐？成功就能修复伏魔大阵，失败则大阵崩溃。

最下方展示这16章的完整结构图，内容相当丰富。

核心主题和思想包括个人成长、牺牲精神、团结协作、文明重建。由于这篇小说比较长，如果光是我给大家看，可能无法判断它写得好不好。

所以，我这里摘录了部分内容给大家看一下。比如在字放上方可以看到它对畸变狼的描述非常细致：体表覆盖鳞片，背上长骨刺，眼眶里有荧光，还有涎水滴落等等。我以往用GPT-3.1或Claude Sonnet 4.5，甚至Kimi的K2也通过Lookcode做过小说尝试，但我发现它们在细节描写上没有Claude Sonnet 4.5好。这里讲的是主角获取了不同晶石，晶石的能量是什么？

也展示出来了。因为这部小说是关于修真类的，所以它会有一个名器，就像金庸的小说一样。再看第三个部分：第一个周天、第二个周天、第三个周天，这也很像武侠小说的感觉。这一页我标示出来的内容，由于小说不是演戏，所以我们看不到角色的面部表情。

所以小说通过这些词语展示出人物当时的状态。我认为这些片段都写得非常好，上方同样是一个细节描写。

关于畸变熊的，他说有3米高，浑身覆盖着岩石般的鳞甲，双眼燃烧着暗红色的火焰，口中流淌着腐蚀性的黏液，还有它的背部有裂开。护卫硬着头皮往上冲，刀刃砍在鳞甲上面只溅起了几点火星。这类文字描述的场景，我会在头脑里面先过一下，就像电影画面一样。所以我认为Sonnet在这一点上表现非常好，他这里的描述也非常有意思。

他说主角凌空一抓，旁边的树木就起来了。这里设定是废土世界，所以树木都是枯萎的。在淤凝之力的操作下，枝杈扭曲硬化、峰类化，转眼变成木质长矛。木矛破空后发先至，这个场面很像武打场景。

正一页里有句话让我想鼓掌：“好一个春秋笔法，好一个偷换概念。”这个场面让我想到金庸武侠作品，比如很多人聚在一起时，有人狡辩，正义人士就会说这句话。Claude Sonnet 4.5的文笔相当厉害，这是对深渊的那个场景。

怪物的描述是它有无数眼球拼接而成，每个眼球都在疯狂转动，瞳孔颜色各异。这个画面让我感到毛骨悚然。这对应了之前我们看到的设定——这是一部热血穿越小说。

那他这个小说也有一个心理细节描写，是说主角看到这一幕时指甲嵌入到掌心，这一点写得非常细致。

这一页我们主要观察Claude Sonnet 4.5写文章用的符号。S4.5有个很大的问题，它又回到之前C3的毛病，将中文逗号变成英文半角符号了。所以在它生成的内容里非常影响观感。

在这个小说里，它大部分时候还是用半角符号，一看就知道是Claude写的。但我特意标出这里，认为它加上省略号非常符合小说氛围。因为上方是说怪物有个低语，这句话本意就是要慢慢说，所以符号用得特别准确。这句话感觉是非常经典的电影台词。

这一页我框出来的这段话，其实是故事的一个很大转折点。

这里出现了一个被关着的老者。他做了一些手脚，对整个小说起到了很好的推动作用。到了这一页——

这也是符合这个小说的设定，这些是小说的结尾了。

而且它这个结尾也留得特别好，给小说留下了一个悬念，我们可以对这个故事进行续写。现在就来介绍一下，我是如何让 Claude Sonnet 4.5 帮我生成刚刚的小说。

我在这里用到的是Claude Agent SDK。需要说明的一点是，假使你不是开发者，你也可以直接在官网上和他对话，优化你的提示词，让它帮你去持续生成小说。只是用SDK的话，这里会更快一点。Claude Agent SDK之前名字是Claude Code SDK，它默认使用空的系统提示，以实现最大的灵活性。

它有两种安装方式，那么为什么要选择 AgentSDK 呢？

它有五大优势：
1. 上下文管理自动压缩和上下文管理
2. 丰富的工具生态，比如文件操作、代码执行、网络搜索，以及API拓展性
3. 高级的权限控制，可对智能体功能进行细颗粒度管理
4. 生产必备功能，内置错误管理、会话管理
5. 自动提示缓存及性能优化

你可以用它来开发智能体，例如：
- 诊断修复生产问题
- 安全审查机器人
- 值班工作助手
- 代码审查智能体

在业务场景中，可应用于：
- 法律助手
- 财务顾问
- 客户支持智能体
- 内容创作助手

我直接将Python版本克隆到本地，通过对话测试其功能。Claude Agent SDK提供两种核心方法：
- 入门级场景：一次性问答、总结、翻译润色、文档注释生成
- 进阶场景：交互式终端聊天助手
- 高级场景：自动修改代码、工具拓展、Agent协同流水线

**实践提示：使用该SDK需先安装依赖，随后可通过简单代码快速运行。我们输入了一段基础代码后，其回复输出包含大量参数。

我将 Claude Agent SDK 克隆到本地之后，我问他：“我想做一个写小说的，我希望他先反问我一些内容，我回答好之后，他再开始写脚本。”

这些问题他整理得非常非常多。当时我是和GPT-5对话的，他问： 1. 你的故事和文风是什么？ 2. 总字数范围和大纲方面偏好哪些方式？ 3. 资料的来源和引用校对。

非常建议大家用GPT-5 thinking来做合理的对话，帮你把需求捋清楚。第四，他问我的输出要求；第五是运行方式；第六是读写权限；第七是模型和创意参数。我这里选择了让它更放飞一点，更有新意。第八，他给出了目录名和项目名作为建议。我觉得他这些整理得都不错。

他还给出方案的概览。比如Parser会根据我source里面的资料做轻度的清洗和索引——这是我一开始放在资料里供他参考的。当我运行这个脚本之后，它生成了资料索引和主题摘要。第二个脚本则根据之前生成的内容，输出全文的大纲和每节要点：第一章标题、章节目标，还有一段介绍。

如果我对大纲满意，就可以运行脚本让它根据大纲逐章生成草稿，也就是我们看到的各个章节。它还有一个脚本是做资源校对。一开始我大概运行了5到6章让它校对，这个校对真的非常有意思： 1. 检查到动府名称不一致，具体行数也给到，方便修改； 2. 器皿出现的时机矛盾。

之前我让dV3.1思考模型帮我写穿越小说时也遇到同样问题：第一章明明写了穿越，第二章又写穿越。Claude Sonnet 4.5也存在这样的问题。所以AI写的小说即使文笔非常好，仍然有很多漏洞需要修改。Unit4指出逻辑问题并建议优化，还有主角身份设定。它帮我做了修炼体系一致性的确认，以及道具规则设定等，检查内容非常多。最后还做了总结：最大问题是什么，优先修复哪些问题。

在整个小说完成后又做了一次一致性校对。这次校对内容和之前5章校对有很大区别——之前5章发现的问题在全文校对时没出现。所以我认为应该让它逐章写作：先写几张，校对发现问题及时修改，再继续写新的。

再之后及时进行修改，这样修订起来就不会像写到最后才发现前面有那么多问题。此外，我还提示GPT-5，询问目前的脚本是如何保持让Claude记得写哪个章节、故事情节和人物设定。它是把生成的从第一章到最后一章的内容都发给Claude来生成新章节吗？

GPT-5回复说，当前的脚本是每一章独立调用的无状态模式，它会将总纲文本截取最多4000字，加上本章标题，发给Claude生成当前文本。还好我们一开始给他的总纲文本没有超过4000字。但这样很多细节会缺失，所以我要求它做一个增强。GPT-5非常好，直接给我三种增强路线，第一种是章节摘要滚动上下文。我选择了第一个方案让它修改脚本。

在设定一致性校对时，我又产生疑问：是否将之前生成的所有章节合并发给Claude进行比对？它解释说当前做法是先把草稿里的章节文件列表作为路径清单提供给模型，Claude会在校对过程中按需调用这些工具读取具体文件内容再做对比。这样做的好处是避免全部塞进上下文导致超长、成本高且效率低。

这个noble文件夹是我手动创建，提示GPT-5在里面生成各个脚本。我会将这些脚本放在知识星球里，有兴趣可以关注。程序还有一个配置文件，包含语言类型、面向观众的年龄、小说长度等设置。配置好后运行脚本非常方便。

总体而言，我对Claude Sonnet 4.5的写作能力印象非常深刻。它写的小说我花了两三小时阅读，语言表达和细节连贯性非常符合初始设定。当然一致性校对里也发现不少问题。从效率角度看，它几分钟就能生成7万多字小说，再花些时间修订，两三天内出一部及格线（70分）的小说完全没问题。

claude的模型确实厉害，但是缺乏没有agent能力的工具都是垃圾，claude编码能力如果没有claude code其实没有啥厉害的。claude code适合快速开发功能，OpenAI的codex也很厉害，适合修复bug。按照模型的编程能力其实codex更好，更严谨一些。claude宽度更广想象力丰富点,各有各的好，按需来。

目前为止，claude确实是写代码最强的大模型吗？

相关推荐