lz本人在生活、学习以及工作的过程中使用AI的频率越来越高,于是想要开设“AI使用指南”系列帖子,目的是和uu们一起学习AI相关内容,由于我本人的能力也很有限,主要还是通过帖子拓展一下思路之类的,希望能给大家在使用AI的过程中一点点帮助!
本帖的基本概念部分基于该视频整理~
LLM是Large Language Model的缩写,也就是我们常说的"大模型",是所有AI产品运行的底层载体。我们日常用的DeepSeek、豆包、ChatGPT,背后都跑着各自的大模型,比如DeepSeek的R1,Claude 的sonnet等等。
大模型的运行依靠一种叫Transformer的架构,本质上是在做一件事:预测下一个词。当你输入“今天天气如何”,在没有外接天气查询工具的情况下,它会根据训练数据判断接下来最可能出现的词是什么,然后再预测下一个,再下一个……就这样一个词一个词地往后生成,拼成完整的回答。
所以,AI并不能做到真正“理解”你说的话,而只是在现有训练数据基础上做极其复杂的概率预测。也就是说它生成的内容仅能基于当前的训练数据,而非经过验证的事实。这就是为什么AI有时候会产生幻觉,或者容易产生刻板印象与偏见,如下示例。
在目前主流大模型的检索、推测和生成能力上,lz个人的体验是【非常主观】:Claude>deepseek>GPT>Gemini>豆包
不过每个模型都有它很不同的特点和使用场景,即使豆包我个人感觉思考能力在里面较为欠缺,但是我依然在非常多场景中使用了它,如果大家感兴趣,后续我会开一个帖子专门分享一下各个模型配套好用的产品(比如gemini的notebookLM)以及相关的使用场景
大模型是靠数学函数进行运作的,无法直接处理人类的语言、文字,因此需要一个“翻译官”把文字转换成数字才能运算,这个翻译官叫Tokenizer,负责两件事:编码(文字→数字)和解码(数字→文字)。
而Token,就是大模型处理文本的最基本单位。也是Tokenizer切分出来的每一个片段。例如,用户向大模型提问“今天天气如何”,tokenizer会将其切分为“今天/天气/如/何”,其中被切分的每个字段就是Token。不过切分并没有一套标准化的规则,每个不同的大模型自主学习的切分规则都是不同的。
所以也就能理解为什么使用AI需要消耗的是Token了,因为token是AI一次能够处理的最小使用单元,如果你输入的内容够多,那么需要被切分出的Token也就更多,所消耗的AI算力也就更大。
付费使用API或者按量计费的AI服务时,Token直接决定花多少钱。即使用免费产品,理解Token的概念也能帮你更高效地组织输入内容,不做无效消耗。这也就是为什么有人说要尽量少和AI说“谢谢”的原因啦
大模型本身是数学函数,没有人类的“记忆”,它输出的内容基于向其输出的所有信息,而context就是大模型每次处理任务时所接收到的信息总和。一般而言,大模型每次回答时的context会包括用户的提问、对话历史、所使用的工具、当前输出的内容等。
简言之,可以把context看作大模型的临时记忆体,就像在对话中,当前对话框里的全部信息都是大模型输出内容时所参考的context。而如果你新建一个对话框,之前对话的内容就不会保留在新建的对话框内。
不过context的大小是有限制的,这个限制叫Context Window(上下文窗口),代表Context能容纳的最大Token数量。目前主流大模型的Context Window大概在100万Token上下,听起来很多,但如果你持续在一个对话里工作,历史记录会不断累积,最终可能超出限制。
此外,Context越长,AI的注意力越容易分散。研究发现,放在Context最开头和最末尾的信息,AI记得最牢;被埋在中间的关键信息,反而容易被忽略,这个现象叫"Lost in the Middle"。
上面说到,模型的context window是有限的,用户能使用的token也是有限的,如果你要分析一篇几百万文字的书籍,那么一个对话显然是无法解决的,但如果开启新对话又不能保存当下的记忆。针对这个问题,有一个叫RAG的技术,它的原理是“先检索,再生成”,通过筛选出这篇百万文字书籍中最符合用户提问需求的几个关键片段,让大模型只根据这些片段来回答问题,避免了的context window的限制。
这个比较好理解,就是向大模型输入的内容。在实际使用时,prompt是决定AI输出质量的关键因素。它一般包含两类:
①user prompt:用户提示词,简单理解为用户向大模型提出的问题,类似于我们给它的具体任务。
②system prompt:系统提示词,是开发者在后台配置的,类似于它的人设和具体规则。
下面举例:
在某平台用AI客服,问它退款政策,它能给出准确答复且全程保持客服口吻——这背后是因为平台在System Prompt里写了类似"你是XX平台的客服,只回答平台相关问题,以下是退款规则:……"之类的内容。System Prompt决定了这个AI产品的"性格"和能力边界。
对普通用户来说,能直接操作的是User Prompt。同样的问题,问法不同,答案质量可能天差地别。 比如同样是让AI帮你改一封邮件:
差的Prompt:帮我改一下这封邮件
好的Prompt:帮我把这封邮件改得更正式一些,收件人是我的客户,目的是跟进上周的合作提案,语气要专业但不冷漠,结尾加一个明确的下一步行动
前者AI只能猜你想要什么,后者AI拿到了足够的信息,输出质量完全不同。关于prompt,本人的经验就是:越详细越好!请见:
上文我们提到,大模型的工作原理是基于训练数据来预测下一个词,所以它本身是无法实时动态地掌握外界变化的。所以在不介入其他工具的情况下,如果问AI当日某地的天气,AI可能因为数据库本身的限制,无法作出回答。
因此,大模型调用工具的方式大概是这样:它在生成回答的过程中,判断"这个问题我自己答不了,需要用某个工具",于是暂停生成、调用工具、拿到结果,再把结果整合进回答里继续输出。
常见的工具类型包括:
可以理解为,大模型就像“大脑”,提供了思考的能力,如果外接工具则像是有了身体和四肢,能够做其他更实际的事情。包括很多的AI软件产品(如cursor/ima),也是大模型+外部工具→具体的应用场景(如编码/知识库….)的模式,是拓展版的外接工具。
从上一个概念可以知悉,大模型本身无法调用工具,需要借助平台来实现外部工具的介入,不过每个平台的的工具接入规范是不一样的,其中涉及到的是工具提供商和AI服务提供商之间的“合同关系”,但这样势必造成不必要的麻烦。于是有了MCP,它是统一的工具接入标准,工具开发者只需要根据MCP这一规范开发一次工具,就可以被所有支持MCP的平台使用了。
类似于手机的Type-C接口,有了统一的标准,大家都会方便很多。
是指能自主规划、自主调用工具的大模型。前文说到,对于一个较为
Agent则是能够自主规划任务、自主决定调用哪些工具、自主完成多个步骤的AI。
举个例子,你让普通AI“帮我调研一下最近新能源汽车的市场动态”,它会给你一段基于训练数据/联网工具的概括,但如果你把同样的任务交给一个Agent,它会自己拆解任务:先联网搜索最新资讯 → 筛选相关内容 → 分类整理 → 输出结构化报告。整个过程你不需要介入,它自主规划并执行完。
更进一步的Agent甚至可以在执行过程中根据中间结果调整计划——比如搜索时发现某个信息来源质量不好,它会换一个关键词重新搜,而不是硬塞给你一个错误结果。
目前,市面上常见的Agent包括claude code、ChatGPT的codex、字节的coze等,最近很火的openclaw,也是同样的原理
简单理解,是给Agent看的说明文档。告诉它遇到某类任务时,应该按照什么步骤执行、遵守什么规则、输出什么格式的结果。
它通常包含两部分:
"封面":这个Skill叫什么名字(name)、在什么情况下触发它(description)
"内容":具体执行步骤、判断规则、输出格式要求等
打个比方:你雇了一个新助理,你不可能每次都从头解释“帮我整理会议纪要的时候注意什么”,所以你给他写了一份SOP。Skill就是这份SOP,只不过交给的是AI。
有了Skill之后,Agent看到对应的触发场景,就会自动按照Skill里定义的流程来执行,不需要你每次重新交代。
本文介绍了关于AI的九个基础概念:
下面内容,我将推荐几个平台上lz认为不错的AI学习、实操方面的博主
大家也可以看一下下面这个视频
最后,还想和大家分享一下自己使用AI过程中的一些小小感想,特别是在这个很容易“AI焦虑”的时期,好像每个人都在主动/被动地接受关于AI的爆炸式的信息,但是个人理解,新兴技术在初期阶段和最终完全成型推广的阶段是热度最高的,在初期是因为需要大量用户投入,从而慢慢推进技术的发展。所以只要技术发展够快而自己学的够慢就完全不用学习了(bushi
我觉得AI的使用还是需要结合自己具体实际需求来,毕竟它只是一个工具,除了专门的研究人员外,没有必要深入或从技术工程的角度去学习AI
所以不用抱太多焦虑,偶尔学习一下,拓展自己知识、思维&解决问题的方式,也是很不错的!
关于AI相关的博主推荐,也欢迎大家plq补充~
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/268507.html