[人工智能-大模型-27]:大模型应用层技术栈 - 大语言模型中的token是什么? - 教程

[人工智能-大模型-27]:大模型应用层技术栈 - 大语言模型中的token是什么? - 教程在大语言模型 Large Language Models LLMs 中 Token nbsp 是模型处理文本的基本单位 理解 Token 的概念对于使用和优化大模型非常重要 尤其是在调用 API 时涉及成本计算 输入长度限制 性能优化 nbsp 等方面 Token 可以简单理解为 文本被切分后的 词块 或 语义单元 大模型不能 直接处理原始字符串 如 amp ldquo

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



在大语言模型(Large Language Models, LLMs)中,Token 是模型处理文本的基本单位。理解 Token 的概念对于使用和优化大模型非常重要,尤其是在调用 API 时涉及成本计算、输入长度限制、性能优化 等方面。


Token 可以简单理解为:文本被切分后的“词块”或“语义单元”。

大模型不能直接处理原始字符串(如 “你好,世界!”),而是需要先将文本通过 分词器(Tokenizer) 转换成数字序列 —— 每个数字对应一个 token。

✅ 举个例子:

句子:

 
   

经过分词后可能变成以下 tokens:

GPT plus 代充 只需 145

共 6 个 tokens

注意:空格也可能被视为一部分(比如  包含空格)。


1. 英文

  • 通常以 单词 + 标点符号 为单位。
  • 常见子词分割算法:Byte Pair Encoding (BPE),由 OpenAI 使用。

示例:

 
    

小词(如 “the”, “is”)通常是独立 token;复杂词可能被拆开。


2. 中文

  • 中文没有天然空格,所以每个 汉字或短语 可能成为一个 token。
  • Qwen、ERNIE、ChatGLM 等中文模型会对中文进行更细粒度的切分。

示例:

GPT plus 代充 只需 145

不同模型的分词策略不同,有的倾向于保留完整词语。


1. 决定输入/输出长度

每种模型都有最大上下文长度限制,例如:

模型 最大上下文长度(token 数) GPT-3.5-turbo 16,384 tokens GPT-4 32,768 tokens(部分版本支持 128K) Qwen-turbo 32,768 tokens Qwen-max 8,192 ~ 32,768

如果你输入的内容超过这个限制,API 会报错或自动截断。


2. 影响计费成本

大多数 LLM 平台按 输入 + 输出的 token 数量收费

示例(OpenAI):
 
       
示例(阿里云 DashScope - Qwen):
模型 输入价格(元 / 千 token) 输出价格(元 / 千 token) qwen-turbo 0.008 0.012 qwen-plus 0.02 0.02

所以控制 token 使用量 = 控制成本!


3. 影响响应速度

  • token 越多,模型需要处理的信息越多 → 延迟越高
  • 特别是长上下文对话,可能导致响应变慢

方法 1:使用官方工具

▶ OpenAI 提供 tokenizer 工具(tiktoken)

import tiktoken

enc = tiktoken.encoding_for_model(“gpt-3.5-turbo”)

text = “你好,世界!Hello, world!”

tokens = enc.encode(text)

print(f”Token 数量: {len(tokens)}“) # 输出类似:10

print(f”Tokens 列表: {tokens}“)

▶ 阿里云 Qwen(DashScope)也提供在线计算器:

 https://help.aliyun.com/zh/dashscope/developer-reference/quick-start

或者使用  库估算 Qwen 的 token 数:

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(“Qwen/Qwen-7B-Chat”, trust_remote_code=True)

text = “你好,通义千问!”

tokens = tokenizer.encode(text)

print(len(tokens)) # 输出 token 数量


问题 回答 ❓ 1 个汉字 = 几个 token? 大约 1~2 个 token(中文平均 1.5 左右) ❓ 英文单词 always 是 1 个 token 吗? 不一定,生僻词或复合词会被拆分(如 “ChatGPT” → “Chat” + “G” + “PT”) ❓ 标点符号算 token 吗? 是的,每个标点都可能是一个 token ❓ 空格算不算? 在某些 tokenizer 中,“ hello” 中的空格属于 token 的一部分 ❓ 如何减少 token 消耗? 精简提示词、避免重复内容、使用摘要代替全文 ❓ 一句话中,相同的单词如何计算token? 在一句话中, 相同的单词会被独立地转换为 Token,即使重复出现,每个实例都会单独计入总 Token 数。

内容类型 字数 vs Token 数近似关系 中文文本 1 token ≈ 1.5~2 个汉字 英文文本 1 token ≈ 4 个英文字符 或 0.75 个单词 混合内容 视具体情况而定

举例:

  • 一段 1000 字的中文文章 ≈ 600~700 tokens
  • 一篇英文技术文档(500 words)≈ 650 tokens

关键点 说明 Token 是什么? 文本被模型切分后的基本单位 为什么重要? 决定长度限制、费用、速度 中文怎么算? 一般 1~2 token/字 英文怎么算? 常见词 1 个 token,复杂词会拆分 怎么查看? 用 (OpenAI)、(Qwen)等工具 如何节省? 缩短输入、删除冗余信息、合理设计 prompt

 建议实践: 下次调用 OpenAI 或 Qwen API 前,先用 tokenizer 预估一下 token 数量,避免超限或浪费预算!

如果你希望我帮你写一个 自动计算 token 并预估费用的小工具脚本,欢迎告诉我 

小讯
上一篇 2026-03-13 12:03
下一篇 2026-03-13 12:05

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/216351.html