一文读懂大模型、智能体和大龙虾

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

2026 年年初，最火的莫过于 OpenClaw 了。不管是社交媒体、新闻还是朋友圈，都有人在谈论“养龙虾”。众多科技公司都推出了自己的大龙虾产品。多地的政府都发布了相关的支持政策。

但对于大语言模型、智能体及大龙虾等新生事物，我发现很多人（包括很多计算机相关行业的业内人士）都还没理解他们的概念和原理。比如以下是我在网上看到的一些问题：

本文旨在使用最通俗易懂的语言，让零基础的读者也搞清楚上述问题。

最近几十年人工智能在人工神经网络（以下简称“神经网络”）领域取得了很大的成果。比如十年前 Google 的 AlphaGo 在围棋领域击败了人类围棋冠军，还有最近几年引起广泛关注的 ChatGPT、Claude、Gemini 以及国内的豆包、千问、DeepSeek、Kimi、MiniMax、GLM 等大模型，究其原理都是基于神经网络的。

我们没必要弄清楚神经网络的具体原理，只需要知道我们可以通过神经网络技术训练得到一些模型，模型可以补全缺失的信息。比如可以使用大量的动物图片训练，得到一个动物识别模型，可以识别图片中动物的类别。

类似的，大语言模型（以下简称大模型）就是这样一个模型，由海量的语言文本训练得到，可以在一些文本的基础上预测出下一个字符的概率。

这里说的“字符”其实是不严谨的，应该叫token（常译作词元）。在文本处理中，token是文本的基本处理单位，它可能是一个字、一个词，或者一个常用的字符组合。比如“苹果”这个词，在大模型处理时通常会被当作一个token，而不是“苹”和“果”两个字分别处理，这样能让训练和预测过程更加高效。

关于token的翻译：还有人把token翻译成令牌。在用户登录授权系统中，把token翻译成令牌确实合情合理（像是古代出入重要场所，守卫根据令牌判断资格）。但在大模型领域，token和令牌完全无法联系到一起。好的翻译能降低学习成本，而不好的翻译会增加学习成本，我们应该尽量避免。

在英文中也是如此，单词apple会被当作一个整体token，而不是a、p、p、l、e五个字符。这就是为什么大模型不擅长处理"计算一个单词中某个字母出现次数"这类问题的原因。同样的道理，在大模型眼里，Apple和apple是两个不同的token。

大模型的训练过程中有几个比较关键的阶段大家可以了解一下：

预训练：使用海量的语言文本进行预训练，得到 基础模型 。基础模型不会对话，只会根据提供的文本序列预测生成下一个token。
监督微调：在基础模型上，使用少量的对话数据进行训练，使模型学会了像人类一样对话、回答问题。
偏好调优：使用奖励模型训练模型能够生成更符合人类喜好的文本。

经过上述阶段的训练后，就有了我们日常使用的大模型，我们无需了解每个阶段具体的实现细节。

还有一种模型叫推理模型，例如 DeepSeek 的 R1（网页版本中选中‘深度思考’的模式），这种模型在对话模型的基础上增加了思维链推理训练，这类推理模型在正式回答问题前会先进行一些“内心独白”，在“内心独白”的基础上生成最终的回答。俗话说“三思而后行”，更多的思考使生成的结果准确率更高。

也可以把模型的能力理解为模仿，对模型的训练就是教他模仿，模仿人类对话、模仿人类先思考再回答，或者更准确一点，它模仿的是它的训练数据。这里就有一个问题，模型的训练数据不可能涵盖我们生活的方方面面，如果我们的对话内容在它的训练数据中出现过，那模型可以较好地回答我们的问题。但是如果我们的问题不在它的训练数据中，也就是说当对于我们的问题它也不知道如何回答时，问题就来了，但它又必须做出回答，这种时候它就会（也只能）产生不准确的回答（这种情况就被称为模型幻觉）。

训练大模型的时候，训练文本是一段一段给它的，而不是把全部的训练数据一次都给它。所以每个模型都有一个上下文窗口，如果把大模型比做大脑，上下文窗口就相当于大脑的“记忆”，我们的大脑能记忆的信息是有限的，所以大模型的上下文窗口也是有限的也很正常。

虽然说大语言模型可以像人类一样“理解”、“思考”、“对话”，但其本质依然是根据前面的字符序列预测下一个 Token 的概率的神经网络。

模型就像大脑，可以理解、思考、对话。但如果光有大脑，没有身体，那它的能力就仅限于对话聊天了。

我们需要让模型帮我们做更多的事，于是就有了智能体（Agent）。智能体是指一个能够感知其环境，并为了达成某个目标而采取行动的实体。简单点说，智能体就是给大模型这颗大脑装配了身体，让它自主通过自己的身体来做一些事情。

像可以自动生成代码的 Cursor、Claude Code 等开发工具，以及最近很火的 Open Claw 等大龙虾产品，都是智能体的范畴。

如果把智能体比做身体，那么MCP和Skill就是身体的“手”和“脚”。

MCP（Model Control Protocol）使大模型可以调用外部服务提供的能力。比如麦当劳就提供了 MCP 服务，这样智能体就能完成点餐、支付等操作。

Skill 则让智能体具备了更大的自主性，可以毫不夸张的说，绝大多数人类在电脑上可以完成的操作，都可以封装成 Skill 变成智能体的技能。智能体也会自带一个“创建新 Skill”的 Skill，我们可以根据自己的需要创建新的 Skill。

相较于编码智能体，我觉得大龙虾最大的便利是打通了常用的聊天工具，这样我们就可以通过微信、、飞书等工具来远程指挥大龙虾去做一些事情。

最近在网上常看到有人跟风养了龙虾，仅仅使用了龙虾的聊天对话功能，不知道大龙虾还能干点什么。如果你日常生活中从不使用电脑，那你大概率也不需要大龙虾。反而，如果你经常使用电脑处理一些任务，那你就可以把你所处理的任务封装成一个 Skill，让大龙虾来完成，我已经看到有人用智能体替自己发公众号、发小红书了。

现代的科技已经发展到 AI 可以自己产生内容并发布到平台，各大平台上由 AI 生成的内容已经成为了新的内容会越来越多，我们使用手机的时间也越来越长，真不知道这样是好还是坏。

大龙虾不是第一个智能体，也不会是最后一个智能体，未来肯定还会有更多强大的智能体出现。如果你经常使用电脑，不妨尝试一下这类智能体，让智能体来替你完成一些工作，或许这样就打开了新世界的大门。

一文读懂大模型、智能体和大龙虾

相关推荐