AI 入门到精通之路：这 8 个关键概念你必须掌握，一文读懂精髓

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

 
  
    
     在当今数字化时代，人工智能（AI）已成为推动各行业变革与发展的核心力量。从智能语音助手到自动驾驶汽车，从医疗诊断到金融风险预测，AI 的应用无处不在。对于想要深入了解和掌握 AI 技术的人来说，理解其核心概念是迈向精通的第一步。本文将详细介绍 8 个关键的 AI 概念，助你构建坚实的知识基础，开启 AI 的探索之旅。

1、AGI（通用人工智能）

AGI的英文全称为Artificial general intelligence，中文名为通用人工智能。它所指的是人工智能达到的一种智能状态：能够像人类那样思考和解决问题，展现出智能行为，且不会被限制在特定的领域中。简单来讲，AGI拥有较为广泛的认知能力，如同人类一般可以适应环境、自主学习，完成人类能够执行的各项任务。因此，AGI具有以下特性：

通用性： 能够做到“触类旁通”。AGI不会只局限于某一个特定领域，而是像人类一样，既能进行复杂的数学运算，又能吟诗作对，甚至还可以创作音乐。
自主性： 可以独立思考、自主做出决策。AGI能够理解任务目标，并根据环境主动对任务进行拆解，进而完成执行。
适应性和学习能力： 这是AGI实现“通用性”和“自主性”的基础。AGI具备强大的学习能力，能够从经验中学习，不断更新和完善自身的知识库。
理解与推理能力： 能够真正理解信息，涵盖文字、音频、视频等多种模态的信息。不仅要知晓表面含义，更要能根据语境、人物关系洞察出隐含信息（比如讽刺），分析出问题的本质，并给出解决方案。

在我看来，AGI有点类似于拥有人类意识的机器人。

2、 AIGC（人工智能生成的内容）

AIGC的英文全称为Artificial Intelligence Generated Content，意思是“由人工智能生成的内容”。人工智能借助各类算法模型，生成文本、图片、视频、代码、对话等多种形式的内容。

与AIGC概念相对应，应用于该领域的AI也被称作Generative AI（生成式AI），简称Gen - AI。比如ChatGPT能够撰写文章，Sora可以生成视频，这些都属于AIGC的范畴。目前市场上大家所熟知的“豆包”“Kimi”等，都是AIGC的垂直类应用。

在这里插入图片描述

例如，豆包写出来的内容就叫AIGC，豆包就是AIGC的垂直类应用

3、 LM（大模型）

LM全称Large Models，即大模型。这是指参数量巨大（通常10亿+）的深度学习模型，泛指所有类型的大型机器学习模型。大模型可以覆盖多模态的任务，包括文本、图像、音频和视频等，而不仅仅局限于处理自然语言(NLP，Natural language processing)，代表的模型是Google的Gemini 2.5。

4、LLM（大语言模型）

LLM全称是Large Language Models，即大语言模型，是专门用于处理自然语言(NLP)任务的大型机器学习模型，一般用来理解和生成人类语言。代表的模型是ChatGPT4，主要聚焦的应用领域包括聊天机器人、文本生成、问答系统、文本摘要、翻译等。

5、 Prompt（提示词）– 高效对话大模型

Prompt的学名叫做提示词，是用来使用LLM的利器。LLM的基础使用很简单，就是用户输入自己的问题（prompt），LLM经过一系列运行，给出结果（学名叫做Output，也就是输出）。

在这里插入图片描述

LLM的基础使用范式

这一小节，其实讲的就是如何与LLM进行有效的对话，这是Prompt的精髓。只有确保模型完全理解我们的诉求，它才能给我们预期的结果。通过优化这种对话的方式，可以有效地提升模型输出的结果，让大模型更加“懂我们所想”。

下面我们举一个例子，来看看如何与LLM高效对话：假设你在住酒店期间因为洗手间太滑而摔倒，想要写一封邮件给酒店经理表达愤怒，并寻求补偿，于是你尝试使用大模型来帮你写邮件（以下模型使用的是2021年的GPT3.5_Trubo，2021年训练生成）：

1. 第一轮： 我向模型诉说了自己的要求，模型正确生成了，可惜的是英文版本，而我住的酒店是中国的酒店；
在这里插入图片描述

2. 第二轮： 于是，我增加了我的诉求：“请你使用中文”。ChatGPT果然给了我中文版本，但是这个版本我觉得太啰嗦，而且态度不够强硬
在这里插入图片描述

3. 第三轮： 我改了一下，增加了要求“表达我很愤怒”，并且“字数在100字以内”

在这里插入图片描述

嗯，第三轮言简意赅，基本满足了我的诉求，于是我就使用了这个模板。其实这种通过不断优化Prompt，来提升大模型响应质量的方式，官方名称叫做Prompt Engineering（提示词工程），这是一门挺大的学问，有很多的实践方案（改天专门写一篇来分享）。但是一般来说，一个良好的Prompt应该有以下的特点：

1. 身份任务设定说明： 这是为了限定模型的职责，让它知道自己身份是什么，回答问题要符合自己的身份要求；不要僭越，也不要妄自菲薄

2. 具体的要求，越清晰越好： 例如以上例子中 “用中文”、“表达我很愤怒”

3. 示例few-shots： 给出一些输出的例子，实际上就是给大模型打个样，让它快速理解你给它的任务和输出应该是什么样

4. 输出规范和说明： 例如以上例子中“100个字以内”

当然在实际优化的时候，也不要照本宣科，对于简单的问题，只要模型回答的不错，不需要过分追求准确度。学好Prompt优化很重要，学好了Prompt优化，基本上使用市场上的AI 工具就不成问题了，据统计，目前从事AI工作的工作者，有较大比例在从事Prompt Engineering相关的工作。

6、 RAG（检索增强生成）– 大模型的知识索引

RAG出现的背景

如果我已经把提示词优化的足够好了，模型也完全能够理解我的诉求了，那是不是就能解决所有问题了？

不，还没有那么简单，有些时候大模型显得很“白痴”，回答不了我们认为很简单的一些事情。我们要先理解大模型的工作原理：大模型需要一定的训练数据进行训练，在训练完成后，参数就已经固定，所以大模型本质是一个离线方案（例如刚才在讲到Prompt优化时使用的模型就是较旧版本的GPT-3.5 Turbo，训练数据截至2021年9月。）这意味着 ① 大模型学习的知识是有限的，一些很专业领域的知识它不一定能学习到 ② 大模型对持续发生的事情感知是不强的（尤其是训练完成后发生的事情）

所以我们要帮助大模型去解决它的这两个限制，于是就有了RAG和Function Calling：RAG 是为了解决大模型知识有限的问题，Function Calling是为了解决大模型对新知识的学习问题。

RAG的使用介绍

RAG的英文全称叫做 Retrieval-Augmented Generation，翻译成中文叫做“检索增强生成”，源自于一篇论文

《Retrieval-Augmented Generation for Large Language Models:A Survey》

可以简单的理解，把RAG当做是一个外挂，当大模型对一些知识不太懂的时候，它就会回答错误，所以我们需要提供一些方法帮助模型接触到那部分知识，RAG就是通过提供信息检索来补充离线模型缺失的那部分知识。

在这里插入图片描述

LLM的RAG使用范式

7、 Function Calling（工具调用）– 大模型的场外求助

Function calling，翻译成中文叫做“工具调用”，当大模型因为不了解最新知识而无法正确处理时，我们可以给大模型增加一个“外挂”，通过调用工具的方式寻求解决，有点类似于智能问答里面的“场外求助”。

那么该如何解决这样的问题呢？

刚才有介绍，大模型是离线模型，它并不知道今天的具体日期，自然也无法了解天气的情况，因此需要让它寻求“场外帮助”，先通过“日历工具”确定今天是星期几，然后再查询“天气预报工具”确认今天的天气情况，于是变成了下面这样：

在这里插入图片描述

LLM的Function Calling使用范式

Function Calling就是指在遇到特定问题时，会选择正确的工具来帮助它来解决问题，这其实已经把大模型从语言模型向更先进的“智能体”去进化了。

8、 AI Agent（智能体）– 大模型的智能表达

前面章节介绍了如何使用Prompt高效与模型对话，如何通过RAG的方式给模型加知识索引，以及教会大模型学会使用工具。这个时候大模型还停留在可以对话的阶段，一问一答，是被动的执行任务；那么如何能够让大模型更“智能”一点，甚至能够主动地执行一些任务呢？ – 于是，智能体就出现了。

从定义上来说，智能体是能够感知环境、制定计划、执行任务和自主学习的系统。大模型最开始使用的场景是问答，这是一种被动的任务执行（比如ChatGPT/豆包等），但是智能体的提出，是要从被动的问答转向主动的任务执行。AI Agent其实并非是一项技术，而是通过整合LLM的能力，针对特定场景的再次封装，去执行特定的任务。

AI Agent架构，包括Memory（记忆模块）、Planning（规划模块）、Tools（工具模块）和Action（执行模块）。

请添加图片描述

OpenAI应用人工智能研究负责人Lilian Weng设计的通用的AI Agent架构

举个例子，加入我们想做一个自动点咖啡的智能体，那么我们应该这么设计：

Prompt设计：设置提示词，识别用户的输入，帮助决策模型去正确识别用户的诉求。可以通过设定角色任务、要求、例子(few-shots)、输出规范等方式来做
决策模型（市场上的OpenAI、DeepSeek、Qween都可以）：结合用户的对话和上下文，决策该使用哪些工具，以及应该选择哪些参数去调用工具
工具Function Calling：直接通过API调用的方式，调用对应的咖啡品牌下单；如例子中用户要点星巴克，那么工具就应该选择星巴克的下单服务
表达模型：根据最终决策模型的结果，给到用户结果

在这里插入图片描述