从ChatGPT到大模型与AI Agent：探索通用AI与持续学习的未来趋势（收藏版）

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

 
  
    
     本文回顾了大模型和AI Agent的发展历程，从早期的专用AI到ChatGPT带来的通用性突破，再到OpenAI的o1、o3等推理模型和Agent模型的推出，展示了AI重心从“生成内容”向“执行任务”的转变。文章深入探讨了大模型如何通过Next-Token Prediction实现通用能力，以及AI Agent如何从工具进化为主驾驶，具备自主理解和规划能力。此外，还分析了Next-Token Prediction的计算信息学视角，以及未来AI Agent可能的发展方向，包括持续学习和主动Agent的出现。文章最后展望了2026年AI领域的发展趋势，强调了研究的重要性，并提出了AI Agent可能的社会影响。

大模型前，AI的关键词是“专用”。

以中英翻译为例：

早期的知识工程方法，需要翻译专家手工编写一条条规则；
传统机器学习方法需要基于双语语料学习条件概率；
传统深度学习如BERT虽然引入了预训练，但仍需要针对每个任务进行微调。

ChatGPT让我们看到了通用性的可能：同时完成问答、摘要、几十种语言的翻译，以及风格化写作等多种任务。

实现这种通用性的主要原因是任务被统一了。

大模型之前，自然语言处理借鉴计算语言学，把复杂任务拆解为一系列中间任务。比如传统对话系统分为问题理解、对话管理和回复生成三个模块；问题理解模块，又会继续拆解为分词、词性标注、句法分析、命名实体识别等多个中间任务。

ChatGPT将整个对话过程统一成了Next-Token Prediction：把前面的对话内容当作context，一步一步地做“词语接龙”，猜下一个最合适的词。

为什么预测下一个词就可以获得通用的能力？比如“This teriible movie was really boring”这句话，要准确预测boring这个词，模型需要理解terrible和boring之间的语义关联，这实际涉及到了情感识别的能力。

后面两个例子一个需要根据前面的数值关系，推算出正确结果，本质上是代数运算；另一个则需要逻辑推理能力。

实现Next-Token Prediction，所需要的这种token和token之间的关系，是通过一种叫自注意力的机制来实现的。

Transformer的核心就是一层层的自注意力矩阵，而 GPT 本质上是 Transformer 的一个解码器版本。

所谓的预训练，是指给定上文，模型通过这些自注意力层前向计算去预测下一个词；如果预测错了，就产生一个损失，用来反向更新模型参数。

这个过程在海量语料上进行，直到尽可能多的token都被正确预测，训练结束。

就是这样一个朴素的Next-Token Prediction过程，当放到整个互联网规模的数据上去做时，大力出奇迹，量变产生了质变。

可以说，今天大模型的出现，来自我们每一个人的贡献：
过去二十年，互联网所积累的数据，远远超过了人类历史上此前所有可记录信息的总和。

大模型训练用了多少数据量？从2018年的GPT-1到2020年的GPT-3，训练数据量和模型容量都呈超指数级增长。

GPT-3用了约1万亿（1T）token进行训练，相当于一亿本百万字的小说。

它包含1750亿个参数。作为对比，人脑有860亿个神经元，但模型参数更像是神经元之间的连接，人脑这个连接的数量是百万亿。所以今天大模型的复杂程度还只相当于昆虫的级别，距离人类大脑还有几个数量级上的差距。

这一轮scaling的背后，其实对应着 AI 研究中一个著名的经验总结：苦涩的教训（The Bitter Lesson）。

长期以来，研究人员把大量精力用于精细改进算法上，希望通过复杂的模型设计，把loss再压低一点点。

但随着算力、数据等资源的持续增长，比起在算法上做微小改进，不如增加一个横轴：简单、通用的算法，只要不断扩大资源规模，就可以获得更显著的loss下降。

于是，重心从算法变成了能让scaling跑起来的工程化实现，也就是实现向坐标轴右侧的移动。

这几年的大模型训练，像是人类历史上的又一次伟大工程实践，是系统性组织、资源整合和工程能力的集中体现。

当然，工程中也蕴含了算法，在数据配比、模型结构规模选择等关键环节，需要通过对scaling law的研究来指导工程实现。

GPT-3早在2020年就训练好了，但当时只有研究人员和少量极客使用，因为它通过预训练只学到了“词语接龙”的能力。

ChatGPT在GPT预训练的基础上增加了让模型能“听懂人话”的后训练。

预训练像是天才儿童"背书"：把图书馆的书都死记硬背了，但还没和世界真正互动过，很难执行任务。

后训练包含两个阶段，第一阶段像是练习"做题"：相当于通识教育阶段，老师给出有标准答案的问题，模型学习理解问题、并给出正确答案。

当模型能听懂问题，也能自己做题后，进入第二阶段的“实战”：类似研究生阶段，导师给课题往往没有标准答案，模型需要自己探索，人类根据经验和偏好进行评估和引导。

2024年春节的Sora是从语言走向多模态的一个标志事件。语言因为数据易获取且信息密度高，成为了Next-Token Prediction最先成功的低垂果实。

OpenAI内部当时应该有多条路线在同时尝试通往AGI，从iGPT到Sora是其中的一条多模态、尤其是视觉为核心的路线，这从Sora发布时自称“世界模拟器”也能看出来。

但随着Sam Altman对应用的强调和此后o1推理模型的推出，这一路线的优先级下降，Sora也停留在了视频生成应用的层面。

视觉本身包含的信息量远高于语言。但多模态大模型长期依赖语言作为“脚手架”，始终没有完全摆脱语言监督的限制，也还没能真正实现自己的scaling law。

如果对这一点感兴趣，可以参考前Sora 负责人Aditya在2024年智源大会的报告 “Language as the Scaffolding for Visual Intelligence”。

多模态大模型的另一个标志事件是2024年5月发布的GPT-4o，大幅提升了语音自然交互的能力：此前需要依次完成语音识别、自然语言对话、语音合成的三步流程，合并为端到端的一步。

这和ChatGPT替代传统对话系统一样：用一个“通用”的模型，取代由多个中间任务拼接而成的pipeline。

站在这些模型背后的“那个男人”是OpenAI的首席科学家：Ilya Sutskever。

这个名字在AI发展的多个重要节点反复出现：

2012年，他是AlexNex的第二作者，也被普遍认为是核心方法的主要提出者，开了深度学习；
2016年，作为DeepMind团队之外唯一的AlphaGo核心成员，让机器在极端复杂决策的问题上超越人类。

Ilya也是2023年底OpenAI“宫斗”事件的主要发起者，并最终在2024年5月从OpenAI离职.

值得注意的是，在他离职后，2024年9月推出的o1推理模型仍然把他列为核心贡献者（Foundational Contributors）。

正是这一模型，开启了AI Agent的时代。

大模型出现之前，AI的定位是“专用工具”。

无论是专家系统、传统机器学习，还是早期的深度学习，都依赖专业界面和明确指令，解决的是边界清晰的专用任务。

在这种模式下，AI 与历史上此前技术革命没有本质区别：始终是被人类调用的工具，比如在 Photoshop 中进行交互式抠图。

大模型带来了通用任务能力和自然语言交互界面，使AI成为人机协作的Co-Pilot：人给出明确指令，AI 按步骤执行。

比如GPT-4o根据自然语言完成生成、抠图或风格迁移。但在这一阶段，仍然是是人指挥一步，AI执行一步。

除了内容理解和生成的感知能力，模型逐步具备了任务规划、工具使用和记忆的认知决策和行动能力。AI 开始能够直接理解目标导向的高层需求。

例如提出“为新产品设计海报并发布到小红书”，Manus 可以自主拆解任务、调用工具或其他 Agent 来完成子任务。

在这一阶段，AI 从副驾驶走向主驾驶（Auto-Pilot），也就是 AI Agent。按 OpenAI 的定义，AI Agent 是具备自主理解、规划、记忆和工具调用能力，能够自动完成复杂任务的系统。

从 Agent 这个概念本身来看，哲学和AI领域有不同定义。
这里我们只采用技术层面的定义，关注自主性、反应性和交互性，不讨论尚未形成共识的意识等问题。

实际上，Agent一直是AI发展的核心概念。
从技术路径看，先后经历了基于规则和基于强化学习两个阶段。
AlphaGo以及OpenAI早期的游戏Agent，依赖强化学习，在单一任务、封闭环境中超过了人类的水平。

今天的AI Agent建立在预训练大模型之上，通过预训练获得了世界知识先验，并以自然语言作为统一的任务接口，从而突破了纯强化学习方法在泛化性和通用性上的限制。

下面我们主要关注前者-智能代理的发展。

当前AI Agent主要有两类应用：

操作型Agent更像“眼和手”，擅长与环境交互和执行操作，适用于重复性强、操作密集的自动化任务；
信息型Agent是“大脑”，擅长信息检索、知识整合和复杂分析，适用于知识密集型任务。

在实现方式上，目前主要有三种：GUI Agent、API Agent 和Agent-to-Agent。

豆包手机采取的是GUI Agent的方案，通过多模态能力模拟人与GUI的交互。优点是通用性好，让AI在不改变现有应用生态的情况下完成任务；缺点是对模型能力要求较高，对于复杂指令执行效率低。

相比起来，API Agent直接调用应用后台接口，执行效率高，但前提是需要打通应用和Agent之间的协作通道。

Agent-to-Agen是当前阶段一种可能的折衷方案：由系统级 Agent 负责理解目标与规划，再调用各类垂直App Agent执行具体任务，在一定程度上兼顾通用性与效率。

从长期看，GUI Agent 和 API Agent 代表了两条不同的发展思路。
GUI Agent 的核心思想是：让AI适应人类已经存在的数字世界；对应看，人形机器人是让AI适应人类的物理世界。

相比物理世界，数字世界更容易被改造。因此API Agent走的是另一条路径：为AI构建一个原生世界，包括为AI设计的工具、接口和通信方式，从而摆脱对人类界面的依赖。

过去三年，在AI Agent核心能力获取和应用构建上，我们看到了类似的从基于外部工作流向模型原生(model-native)发展的趋势。

核心能力层面：

任务规划：早期依赖类似Chain-of-Thought（CoT）的提示词来“触发”，在o1、R1这类推理模型中，规划过程以内生方式由模型直接生成；
工具使用：从系统层的硬编码工作流、基于ReAct的提示词驱动，逐步发展到o3等模型中作为原生能力出现；
记忆管理：从以RAG为代表的外部检索机制，发展到像MEM1、MemAct等将记忆视为模型策略中一种特殊行为的方案。

应用层面

GUI Agent在2024年主要依赖闭源多模态模型+外部Agent框架，2025年从UI-TARS开始将感知、决策和操作等关键能力内化到模型中；
Deep Research Agent也从谷歌早期高度依赖工作流，发展到OpenAI率先将核心环节模型化，大幅提升了长程规划能力和调研深度。

以工具使用为例，可以用几个不太严谨的类比来理解模型原生的潜在优势。

基于外部工作流的工具使用，包括类似Coze的可视化编辑系统流程的硬工作流，和ReAct在提示词中加入“思考(Reasoning)-行动(Action)-观测(Observation)“循环的例子来引导的软工作流。

硬工作流有点像《水浒传》里潘金莲喂药的固定脚本，作为执行环节的大模型就像被喂药的武大郎，别无选择，只能完全遵从。

软工作流稍微灵活一些，更像《西游记》里最后一难过通天河时，观音给老鼋的指令。是否遵从指令，要结合执行时的具体上下文由老鼋自己决定。

模型原生的方法大致可以分两种：生成式原生和端到端原生。

第一种，生成式原生的代表是推理模型之后的做法：比如Manus先用模型原生的推理能力做任务分解与规划，生成一个结构化行动计划，再结合每一步观测到的局部上下文，逐步调用工具或子Agent去执行。

对应的例子是《三国演义》里的周瑜：有强大的推理能力，可以自主规划。但受限于能观测到的信息，因此可能成功（如赤壁之战的苦肉计），也可能因为信息不完备而翻车（入赔了夫人又折兵）。

第二种，端到端原生更进一步：像o3这类模型，在大量“多轮思考-工具调用”的任务轨迹上训练，让模型在思考过程中自己决定何时、如何调用工具。

这可以用诸葛亮的“隆中对“来理解。诸葛亮在出山之前，已经为刘备推演了天下未来数十年的走向。因此在执行时，能结合推演和终局做出最优的规划和决策。

面向任务目标对模型的规划和工作调用行为进行端到端优化。模型在规划和执行时，由于面向任务目标进行了训练，是基于全局上下文的，就好像能“看”到未来。

前面我们用Next-Token Prediction(NTP)解释了为什么大模型预训练能够获得通用能力。同样的视角，也可以用来理解模型原生AI Agent的能力来源。

核心在于：规划、工具使用和记忆管理能力的内化训练，本质上是在优化一种“广义的 Next-Token Prediction”。

在 AI Agent 场景中，被预测的“序列”不再只是自然语言 token，还有：

plan/subgoal（规划序列）
tool-call（工具调用序列）
状态的控制与更新（记忆管理序列）

当这些能力被统一为token序列预测目标，它们就自然继承了NTP所带来的scaling特性。

从更抽象的角度看：

LLM 的预训练，通过实现序列预测，学习到的是一个通用的序列生成图灵机；
模型原生 AI Agent 的训练，通过对“任务完成过程中交互序列”的预测，学习到的是一个通用的序列交互图灵机。

关于Next-Token Prediction与学习图灵机的关系，以及为什么它可以scaling的理论基础，下一部分我们从计算信息学的角度做一个简单理解。

2024年的诺贝尔物理学奖颁给了Hopfield和Hinton，奖励他们"将物理思想和方法应用于机器学习"。但从物理学的角度，更长远的意义可能是: 他们为”从信息的角度建模和理解世界“提供了一条可行的路径。

经典物理在宏观尺度上，用物体、力和运动来理解世界；
量子物理在微观尺度上，将世界还原为粒子、波函数与场的相互作用；
信息物理学则尝试从信息与计算的视角，对物质、能量乃至时空结构进行统一刻画和解释。

"信息"最早被香农定义用来描述通信系统中信号的编码和传输，但很快人们发现信息熵公式与玻尔兹曼的热力学熵公式惊人的相似。

惠勒则进一步提出了：“It from Bit”：物理世界中的一切“存在”（It），粒子、场、时空结构，都源于一系列基本的“是/否”选择（Bit）。

信息，可能与质量、能量等一样，是物理世界的一种基本属性，而且或许是更底层的描述语言。

如果说香农定义了信息的度量，图灵则划定了信息的可计算边界：世界的运行是对信息状态的计算。图灵机以极端简化的形式证明：任何复杂的逻辑过程，都可以分解为一系列有限的、确定的符号操作。

当把“万物皆信息”与“信息可计算”放在一起，一个更激进却越来越清晰的推论浮现出来：如果思维过程、生物系统乃至物理规律都能被建模为信息的计算，世界在本质上，或许就是一个巨大的信息处理系统。

Demis Hassabis和Ilya或许是当下对AI理解最深刻的两个人。Hassabis最近在DeepMind播客的年终访谈中说：“至今为止，我们尚未在宇宙中发现任何不可计算的事物。” 围棋中的直觉博弈、蛋白质折叠的高维物理过程，这些曾被认为极其复杂、难以形式化的问题，都已被证明可以通过算法解构与预测。

在他看来，“只要方法得当，计算不仅能够逼近复杂系统的行为，甚至有可能在原则上模拟整个宇宙的运行”。

从计算理论看，大模型是一种通用计算装置，也就是一台图灵机。相应的，对大模型的训练，本质上是图灵机的学习问题。

它的核心结论是：

任何计算问题，都可以等价地转化为预测序列中下一个元素的问题；
在资源无限的理想条件下，这种预测过程可以逼近最优的计算装置，也就是最优的图灵机。

因此，Next-Token Prediction之所以能持续scaling，是有理论依据的；它同时解释了：仅通过不断scale up数据、模型和算力，就可能逐步逼近通用智能。

Ilya在2023年8月的一次报告中，首次讨论了大模型训练与所罗门诺夫归纳之间的关系。可以认为，基于Next-Token Prediction的大模型预训练是对所罗门诺夫归纳的工程化实现：在有限资源约束下，对“最优可计算装置”的持续逼近

Ilya在 2016 年找到了二者的关联，从而坚定了Next-Token Prediction的技术路线和scale up的信仰。

当Transformer架构出现后，IIya认为这就是他所需要的进行scale的工具，于是在OpenAI推动了算法工程化和工程算法化的范式变革，进而带来了今天GPT系列和大模型的成功。

回顾这条时间线：

图灵在1936年提出了图灵机，作为最广义的计算装置；
所罗门诺夫在1964年完成了所罗门诺夫归纳的证明，给出了最广义的学习方式；
直到快60年后，Ilya才在GPT-3中，通过对大模型的大规模Next-Token Prediction训练，第一次在工程层面实现了这一思想。

在处处谈scaling law和大模型原生的今天，2个时代、甚至3个时代前的AI人和AI方法已经被认为过时了。

但如《人工智能简史》的作者尼克老师所说的：“理论不是落后于实践，而是太超前了”。

“酒还是陈的香”，也许是我们还不够老，还没有学会到更早的经典理论中去寻找指导。

万一，可以找到另一个大模型的第一性原理呢？

2026年初的AI领域依然热闹、也依然浮躁。噪音之中，我们尝试寻找信号。

第一个信号，和Ilya时隔一年多再次接受采访中的一句话有关：“我们正在从 scaling 的时代，进入 research 的时代”。他所说的research，可能是什么？

回答这个问题，需要先看看我们已经经历了哪些research-scaling循环？让我们回到“从算力到智能的 Sweet Lesson”。

过去十年算力规模提升了百万倍。当算力成为主要的推动因素后，AI发展的一条核心线索是：如何把越来越多的算力，以尽可能高的效率转化为智能的提升。

这一过程大致经历了算法和数据两个阶段。早期从SVM到DNN再到Transformer，是在算法侧消化算力，让模型能够在大规模数据上训练更大的参数规模，到Transformer已基本收敛了。

接下来要解决的，是如何提供源源不断的数据。这包括了预训练基于自监督学习可以吃掉整个互联网的数据，以及后训练通过强化学习将算力转化为高质量的合成数据。

所以，大模型和AI Agent的发展，已经经历了两轮的research-scaling循环：Transformer和自回归语言模型的research带来的大规模预训练的scaling，以及大语言模型强化学习的research带来后训练数据的scaling。

Ilya 所说的新的“research 时代”，正是重新打开下一轮scaling空间的关键问题。

这个问题的答案，很可能是Hassabis也在多个场合提到的“AGI实现之前需要解决的几个核心问题”之一的“持续学习”(continual/self-evolving learning)。

这意味着模型参数不再是离线训练后就是静态的，而是可以在推断的过程中持续更新，实现“越用越聪明“。

相比后训练在“模拟经验”数据上scaling，持续学习是把执行任务过程中的"真实经验"数据沉淀、内化为模型能力，实现真正的test-time scaling。

Google的Nested Learning工作和NVIDIA的TTT-E2E是这个方向最近值得关注的工作。

这里还有一个问题：预训练的scaling，我们已经可以放在NTP的理论框架下解释。后训练RL的scaling，以及接下来可能实现的持续学习的scaling，是否也存在类似的理论解释？

直观感觉，后训练和持续学习也是在做某种NTP，只是学习分布和学习方式发生了变化。

在后训练阶段，模型不仅拟合观测到的数据分布，而通过模拟环境中的离线主动交互，筛选出高奖励的轨迹；本质上，是在一种奖励约束的特定分布上进行 NTP，将高价值的任务执行路径压缩到模型参数里。
在持续学习阶段，模型可以看成在真实世界的非平稳分布上进行NTP，通过在线主动交互持续捕捉环境的动态变化，应对失效的静态预训练知识。

期待可以看到进一步的理论研究，讨论NTP能够作为统一的视角，解释从预训练、到强化学习、再到持续学习的 scaling 行为，以及这些路径的能力边界在哪里。

第二个信号，让我们把视角进一步拉高，从生物智能的演化中寻找线索。

马毅老师提出了智能演化的四阶段路径：物种智能 -> 个体智能 -> 社会智能 -> 机器智能，将机器智能作为前三阶段自然演化智能的延续。

智能本质上是相通的。如果将机器智能看作一种新的智能形式，它的演化很可能会重复生物智能的物种->个体->社会三阶段路径。

我们看到机器智能的发展有很多和生物智能相似的地方。 AI Agent 的发展：能力、技术架构和软硬件形态

首先，驱动生物智能进化背后的是能量供给的增长，对应了前面讨论的机器智能提升背后的算力增长。这包括了指令式计算阶段的摩尔定律，和智能计算阶段的规模定律。

从物种智能进入个体智能阶段，生物智能和机器智能的发展重心都从“硬件”转向了“软件”。

生物智能方面，由基因决定的物种级生理结构进化速度放缓，转向以学习和经验驱动的个体智能发展。

机器智能方面则对应了前面讨论的从算法到数据过渡的算力->智能阶段：在基于Transformer的模型算法架构成熟和稳定后，机器智能的提升主要来源于数据和经验。

进一步进入社会智能阶段，AI Agent将从被动的智能代理转变为主动的社会智能体。

智能代理以完成人类指定的任务为目标，社会智能体则是具备身份、信用、价值交换能力，成为社会主体之一，可以基于社会身份自主设定目标和发起任务。

人机关系将经历类似生物智能后工业革命时代从“人主导、机器辅助”（human-in-the-loop）到“人监督、机器执行” (human-on-the-loop)，再到某些场景下由 AI 按需调用人类能力的“机器主导、人辅助”（human-on-demand）的转变。

根据乔布斯在40年前总结的“在越来越高的抽象级别上使用计算机”的规律，我们现在已经经历了从机器码与高级语言阶段的 how to do，到大模型阶段的 what to do，再到当下 AI Agent 阶段的 what I want。

社会智能体将继续在更高的抽象层级上满足人类需求。当需求进一步抽象，甚至可以被表达为一种“角色”（who you are）。

这种模式下，人授权机器在某个角色身份下自主决策和行动，机器可以主动发起行为、持续与环境互动，甚至在必要时反过来向人类指派任务。

因此，大模型与 AI Agent 的发展，不仅是一场技术变革，更是一场深层次的社会变革。

2026 年，随着越来越多AI Agent形态的应用落地，技术-应用鸿沟正在被逐渐填平，社会层面的影响也将开始显现。

从“只给建议”的聊天机器人到能“把事情做完”的Manus，这种转变尚未被完全适应；但从被动响应走向主动行动的Clawdbot，已经呼啸而来。

对于正在迷茫择业、想转行提升，或是刚入门的程序员、编程小白来说，有一个问题几乎人人都在问：未来10年，什么领域的职业发展潜力最大？

答案只有一个：人工智能（尤其是大模型方向）

当下，人工智能行业正处于爆发式增长期，其中大模型相关岗位更是供不应求，薪资待遇直接拉满——字节跳动作为AI领域的头部玩家，给硕士毕业的优质AI人才（含大模型相关方向）开出的月基础工资高达5万—6万元；即便是非“人才计划”的普通应聘者，月基础工资也能稳定在4万元左右。

再看阿里、腾讯两大互联网大厂，非“人才计划”的AI相关岗位应聘者，月基础工资也约有3万元，远超其他行业同资历岗位的薪资水平，对于程序员、小白来说，无疑是绝佳的转型和提升赛道。

对于想入局大模型、抢占未来10年行业红利的程序员和小白来说，现在正是最好的学习时机：行业缺口大、大厂需求旺、薪资天花板高，只要找准学习方向，稳步提升技能，就能轻松摆脱“低薪困境”，抓住AI时代的职业机遇。

如果你还不知道从何开始，我自己整理一套全网最全最细的大模型零基础教程，我也是一路自学走过来的，很清楚小白前期学习的痛楚，你要是没有方向还没有好的资源，根本学不到东西！

下面是我整理的大模型学习资源，希望能帮到你。

扫码免费领取全部内容

在这里插入图片描述

从入门到进阶这里都有，跟着老师学习事半功倍。

在这里插入图片描述

2026最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

适用人群

在这里插入图片描述

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…
👇👇扫码免费领取全部内容👇👇

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

从ChatGPT到大模型与AI Agent：探索通用AI与持续学习的未来趋势（收藏版）

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

适用人群

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

相关推荐