最强Claude比黄金还贵，有人用省token.skill立降65%，还有10个小妙招

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

也是史上最贵的。25/125 美元每输入/输出百万，作为对比，Claude Sonnet 4.6 的价格是 ³⁄₁₅ 美元——贵了将近 8 倍。

而这还只是 API 价格。Mythos 目前根本没有对普通用户开放，因为能力太强，Anthropic 自己都没想好怎么给我们用。

最强，也最贵。这两件事放在一起，某种程度上已经预示了接下来的走向： 模型越来越聪明，Token 越来越值钱，我们跟 AI 说话的成本，也越来越高。

但眼下的问题还不用等到 Mythos。就是普通的 Agent，甚至是对话聊天，在各种 Skill、记忆系统的加持下，发一句「你好」，都有可能用掉 Max 20 倍会员计划下，一个时段内 13% 的额度。

Reddit 讨论帖链接：https://www.reddit.com/r/Anthropic/comments/1s8wwra/13_usage_for_one_hello_is_insane_max20_plan/

AI 是越来越聪明，但我们可能快要跟它「说不起话」了。 怎么节省 Token 成了这段时间以来，社交媒体上热议的话题。

有人提出用文言文的方式和 AI 聊天，毕竟古人说话字斟句酌，没有半点废话；还有人想到在不同的模型之间快速切换，用聪明的 Claude 指定策略、Gemini 进行深度研究、然后 ChatGPT 来完成枯燥的流程工作。

这种感觉很像回到了 2000 年还没有数据流量的时候，用手机短信和朋友聊天，0.1 元/条，每条短信还有字数限制，超过字数会自动计算为两条短信，所以一定得事先组织好语言，把要讲的事情在一条短信内说清楚。

回到大模型，在对话框里每按一次发送，一边要担心上下文窗口有限，一边也在想这次又要花掉我多少 Token。

当个山顶洞人，回到石器时代

以文言相与，观若用字更少，然其实果更省乎？

前段时间，有网友在 X 上发梗图讨论用文言文，是不是能减少 Token 的使用。毕竟文言文相比白话文，用的字更少，把我们的语言都压缩成「之乎者也」的表达，所消耗的 token 按理说也会更少。

评论区都在调侃，这是在用人脑的 Token 来弥补 AI Token。

我们的大脑编译文言文不用花钱，消耗再多 Token 倒也无所谓；但真实的情况是， 消耗了脑力，写出了像模像样的文言文，最后并没有减少 Token 的使用。

对于大语言模型来说，越常用的词占用的 Token 越少，它并不是按照文字的长短来定义数量，而是依据语义进行划分。

就像下面的例子，一开始使用文言文只有 21 个字符，但是 Token 数也是 20，切换到白话文，字符数来到 31 个，Token 数依然是 21。

Token 计算：https://platform.openai.com/tokenizer

更离谱的是，我们之前分享过的 GPT-4o 词元污染， 输入一串 8 个字符的短语，在 AI 大模型眼里只占用了 1 个 Token。 而对于一些非常用字，例如「无恙」，ChatGPT 会将其编码成 3 个 token，因为「恙」会变成乱码。

文言文不行，又有开发者提出回到石器时代，用穴居人的方式和 AI「对话」。

一个名叫 caveman 的项目这几天在 GitHub 上走红，和用文言文玩梗不同，这个项目实打实地做了一些测试，并给出了可以复现的 benchmark。

在展示的多项基准任务里面， 使用 Cavemen 项目之后，能节省约 65% 的 Token，同时能保证输出内容的 100% 准确 。

测试结果显示，在标准软件工程任务上，平均压缩率达到 65%，而且推理令牌不受影响，只有输出有效载荷被压缩。项目链接：https://github.com/JuliusBrussee/caveman

具体的做法是通过一个 Skill 来实现， 它会在发送给大模型的请求中，强制加入特定的角色设定和指令，从源头上阻止模型讲废话 。

它会要求模型停止使用客套话（如「Sure I‘d be happy to」）、去除冠词（a, an, the）以及避免使用模棱两可的词汇（如「It might be worth considering」）。

同时，它也要求模型必须保留代码块、错误信息和专业技术术语的原样。

而关于深度思考方面，只会影响输出 Token，模型寻找 Bug、梳理逻辑的内部推理过程依然是完整且庞大的。当模型结束思考，准备「开口」给我们解释时，它受到了 caveman 指令的约束，只用最少的输出 Token 把结论输出。

除了让模型「说山顶洞人的话」来节省输出 Token，这个项目还提供了一个 caveman-compress 脚本来让模型「少阅读」。

它可以将我们的项目记忆文件（如 CLAUDE.md）预先重写并压缩成「山顶洞人语版本」。这样一来，每次我们开启新会话时，大模型需要读取的输入 Token (Input Tokens) ，经过测试减少了约 45%，实现了输入和输出的双重节省。

目前这个项目在 GitHub 上已经拿下了快有 6000 个 Stars。然后很快又有网友给出了「山顶洞人-压缩版」，通过进一步压缩 Caveman 项目的输入来减少 Token。

Caveman 的开发者在项目说明文档里面提到，使用山顶洞人的模式是有科学依据的，他提到了今年 3 月的一篇名为《 Reverse Performance Hierarchies in Language Models》（简短约束逆转了语言模型的性能层级）的论文。

研究发现，大模型的客套话和长篇大论有时是一种 debuff。 强制大型模型给出简短的回复，不仅没有让它变笨，反而使其在某些基准测试上的准确率提高了 26 个百分点。

简洁性的约束消除了反向规模效应。（A）三个条件下的表现显示，在简洁性约束下，大模型显著提升（控制组：40.2% → 简洁组：66.5%，+26.3 个百分点）。（B）差距缩小在不同数据集上有所变化，在 GSM8K 和 MMLU-STEM 中甚至出现完全反转，在简洁条件下大模型表现更优。（C）响应长度验证确认该干预成功操控了冗长度（控制组：197 个 token → 简洁组：78 个 token，减少 60%），从而建立了过度思考与性能下降之间的因果联系。论文链接：https://arxiv.org/abs/2604.00025

去年，视频会议公司 Zoom 也发布了一篇论文，《: Thinking Faster by Writing Less》（草稿链：通过少写来更快思考），提出了一种全新的大语言模型推理策略，解决了现有方法中太啰嗦且成本高的问题。

传统的思维链（Chain-of-Thought, CoT）虽然能帮助大模型通过分步推理来解决复杂任务，但这种方法要求模型在给出最终答案前生成大量详细的中间步骤。这导致了极高的计算资源消耗、更长的输出长度以及更高的延迟。

我们人类在解决复杂问题，如数学题或写代码时，通常不会把所有思考细节都长篇大论地写下来。 我们习惯于只记录简短的「草稿」或核心信息来推进思考。

论文也是受此启发，希望让大模型也模仿这种高效、极简的策略。作者提出了 CoD（草稿思维链）。

在提示词设计上， CoD 同样要求模型一步一步地思考，但做了一个关键限制：每个推理步骤只保留最精简的草稿，最多不超过 5 个词。

例如，在解决简单的数学应用题时，CoT 可能会输出几段完整的句子来描述题意，而 CoD 只需要模型输出类似 x=20-12=8 这样最核心的公式即可。

比较 Claude 3.5 Sonnet 在三种不同提示策略下（直接回答（Standard）、思维链（CoT）和草稿链（CoD））在不同任务中的准确性和令牌使用情况。CoD 在实现与 CoT 相似准确性的同时，使用的令牌数量显著更少。论文链接：https://arxiv.org/abs/2502.18600

结果，CoD 在保持甚至超越 CoT 准确率的同时，消耗的 Token 数量大幅减少，最低仅为 CoT 的 7.6%。

两个研究，都是通过 Skill 或提示词的方式，来强制限制模型的输出长度。CoD 的提示词同样直接，要求模型，「一步一步思考，但每个思考步骤只保留最少的草稿，最多 5 个词」。

更实用的十个 Token 节省方案

除了使用 Caveman 的 Skill，有网友还总结了更完整的节省 Token 十大诀窍。

1、在已发送的消息上修改，而不是另发一条消息

当 AI 回答不符合我们的预期时，尽量不要发一条「不对，我是指……」来跟进。

因为每发一条新消息，大模型都要把前面的所有聊天记录重新读一遍，导致 Token 消耗成倍翻滚。正确的做法是：直接点击原消息的「编辑」按钮，修改提示词，然后重新生成。

消息越多，消耗的 token 也越多。原文来源：https://x.com/0x_kaize/status/

2、每 15–20 条消息就开启一个新对话

长对话是 Token 的无底洞，在一百多条消息的对话中，可能有 98.5% 的 Token 都浪费在让 AI 重读历史记录上。

当对话变长时，我们可以让 AI 先总结一下当前进度，然后拿着这段总结去开一个新的对话。

3、将所有问题都集中到一个消息里面发送

不要把「总结这篇文章」、「列出这篇文章的要点」、「给这篇文章想个标题」分成三条消息发送。

把它们合并成一段完整的提示词，不仅能减少系统加载上下文的次数，还能让 AI 因为看到了全貌而给出更高质量的回答。

4、把反复使用的文件上传到中

如果我们在多个聊天窗口里反复上传同一份长文档，每次上传都会重新消耗大量的 Token。

这个时候我们可以利用 Projects 的缓存功能，文件只需上传一次，后续在这个项目里怎么问关于这份文件的内容，都不会再重复烧 Token 了。

5、提前设置好「记忆」与用户偏好

大多数时候，我们会按照以前的提示词技巧，在发每次开新对话时，都会「浪费额度」去写「现在你是一个文案策划，用轻松的语气写……」。

现在 AI 都有用户偏好和记忆功能，我们可以把职业、行文风格、项目信息等偏好保存在设置里，它就会自动生效，帮我们省下大量重复交代背景的 Token。

6、关掉不需要的附加功能

联网搜索（Web search）和高级思考（Advanced Thinking）等功能只要开着，每一轮都会额外消耗 Token。

除非我们对初步的回答不满意，或者明确需要这些功能，平时在简单地聊天时，可以关闭这些附加功能。

7、用不同的模型解决不同的问题

一些简单的任务，像检查语法、简单排版、快速翻译这些基础活，完全可以使用成本最低的 Haiku 模型。把节省下来 50%–70% 的额度，留给那些真正需要深度思考的复杂任务，交给 Sonnet 或 Opus。

8、把工作分散到全天的不同时段

Claude 的使用限制是基于「滚动 5 小时」窗口来计算的，而不是半夜统一清零。

如果我们早上把额度耗光了，下午就会很难受。建议把工作分成早、中、晚几个时段，这样额度会不断自动恢复。

9、尽量避开高峰时段

从 2026 年 3 月 26 日开始，如果在工作日的高峰期（太平洋时间早上 5 点到 11 点）使用，同样的请求会更快地消耗限额。如果把重度耗费算力的任务挪到非高峰期（比如晚上或周末），额度会经用得多。

这是基于 Claude 之前推出的错峰双倍福利，一方面是 Anthropic 的尖峰服务器压力大，给一些福利希望用户在平谷时候使用 Claude，另一方面也确实给北京时间的用户实实在在的优惠。

目前在 Cursor 等应用内使用大模型，有时候还是会碰到请求过多的提示，尤其是在晚上的时间。

10、开启超额使用 ()作为安全网

如果是 Claude 付费用户，可以在设置里开启超额功能并设定预算上限。

这个方法虽然不省 Token，但可以保证当我们的额度耗尽时，系统会自动切换到按量计费，防止在十万火急的工作关头突然被强制阻断。

无论是靠 Skills 还是我们自己调整提示词，这些方案的底层逻辑都是要减少毫无意义的上下文重复。从千禧年按字算钱的短信，到如今按 Token 计费的大模型，人类追求沟通效率的本质其实从未改变。

在使用 AI 的过程中，逐渐养成这些习惯，用「山顶洞人」的语言，只说重点，把 Token 用在刀刃上，或许是这个 Token 堪比真金白银的时代，最顶级的提示词技巧。

Less is More.

最强Claude比黄金还贵，有人用省token.skill立降65%，还有10个小妙招

相关推荐