本文回顾了大模型和AI Agent的发展历程,从早期的专用AI到ChatGPT带来的通用性突破,再到OpenAI的o1、o3等推理模型和Agent模型的推出,展示了AI重心从“生成内容”向“执行任务”的转变。文章深入探讨了大模型如何通过Next-Token Prediction实现通用能力,以及AI Agent如何从工具进化为主驾驶,具备自主理解和规划能力。此外,还分析了Next-Token Prediction的计算信息学视角,以及未来AI Agent可能的发展方向,包括持续学习和主动Agent的出现。文章最后展望了2026年AI领域的发展趋势,强调了研究的重要性,并提出了AI Agent可能的社会影响。

大模型前,AI的关键词是“专用”。
以中英翻译为例:
- 早期的知识工程方法,需要翻译专家手工编写一条条规则;
- 传统机器学习方法需要基于双语语料学习条件概率;
- 传统深度学习如BERT虽然引入了预训练,但仍需要针对每个任务进行微调。

ChatGPT让我们看到了通用性的可能:同时完成问答、摘要、几十种语言的翻译,以及风格化写作等多种任务。

实现这种通用性的主要原因是任务被统一了。
大模型之前,自然语言处理借鉴计算语言学,把复杂任务拆解为一系列中间任务。比如传统对话系统分为问题理解、对话管理和回复生成三个模块;问题理解模块,又会继续拆解为分词、词性标注、句法分析、命名实体识别等多个中间任务。
ChatGPT将整个对话过程统一成了Next-Token Prediction:把前面的对话内容当作context,一步一步地做“词语接龙”,猜下一个最合适的词。

为什么预测下一个词就可以获得通用的能力?比如“This teriible movie was really boring”这句话,要准确预测boring这个词,模型需要理解terrible和boring之间的语义关联,这实际涉及到了情感识别的能力。
后面两个例子一个需要根据前面的数值关系,推算出正确结果,本质上是代数运算;另一个则需要逻辑推理能力。
实现Next-Token Prediction,所需要的这种token和token之间的关系,是通过一种叫自注意力的机制来实现的。

Transformer的核心就是一层层的自注意力矩阵,而 GPT 本质上是 Transformer 的一个解码器版本。
所谓的预训练,是指给定上文,模型通过这些自注意力层前向计算去预测下一个词;如果预测错了,就产生一个损失,用来反向更新模型参数。
这个过程在海量语料上进行,直到尽可能多的token都被正确预测,训练结束。
就是这样一个朴素的Next-Token Prediction过程,当放到整个互联网规模的数据上去做时,大力出奇迹,量变产生了质变。
可以说,今天大模型的出现,来自我们每一个人的贡献:
过去二十年,互联网所积累的数据,远远超过了人类历史上此前所有可记录信息的总和。

大模型训练用了多少数据量?从2018年的GPT-1到2020年的GPT-3,训练数据量和模型容量都呈超指数级增长。
GPT-3用了约1万亿(1T)token进行训练,相当于一亿本百万字的小说。
它包含1750亿个参数。作为对比,人脑有860亿个神经元,但模型参数更像是神经元之间的连接,人脑这个连接的数量是百万亿。所以今天大模型的复杂程度还只相当于昆虫的级别,距离人类大脑还有几个数量级上的差距。

这一轮scaling的背后,其实对应着 AI 研究中一个著名的经验总结:苦涩的教训(The Bitter Lesson)。
长期以来,研究人员把大量精力用于精细改进算法上,希望通过复杂的模型设计,把loss再压低一点点。
但随着算力、数据等资源的持续增长,比起在算法上做微小改进,不如增加一个横轴:简单、通用的算法,只要不断扩大资源规模,就可以获得更显著的loss下降。
于是,重心从算法变成了能让scaling跑起来的工程化实现,也就是实现向坐标轴右侧的移动。
这几年的大模型训练,像是人类历史上的又一次伟大工程实践,是系统性组织、资源整合和工程能力的集中体现。
当然,工程中也蕴含了算法,在数据配比、模型结构规模选择等关键环节,需要通过对scaling law的研究来指导工程实现。

GPT-3早在2020年就训练好了,但当时只有研究人员和少量极客使用,因为它通过预训练只学到了“词语接龙”的能力。
ChatGPT在GPT预训练的基础上增加了让模型能“听懂人话”的后训练。
预训练像是天才儿童"背书":把图书馆的书都死记硬背了,但还没和世界真正互动过,很难执行任务。
后训练包含两个阶段,第一阶段像是练习"做题":相当于通识教育阶段,老师给出有标准答案的问题,模型学习理解问题、并给出正确答案。
当模型能听懂问题,也能自己做题后,进入第二阶段的“实战”:类似研究生阶段,导师给课题往往没有标准答案,模型需要自己探索,人类根据经验和偏好进行评估和引导。

2024年春节的Sora是从语言走向多模态的一个标志事件。语言因为数据易获取且信息密度高,成为了Next-Token Prediction最先成功的低垂果实。
OpenAI内部当时应该有多条路线在同时尝试通往AGI,从iGPT到Sora是其中的一条多模态、尤其是视觉为核心的路线,这从Sora发布时自称“世界模拟器”也能看出来。
但随着Sam Altman对应用的强调和此后o1推理模型的推出,这一路线的优先级下降,Sora也停留在了视频生成应用的层面。
视觉本身包含的信息量远高于语言。但多模态大模型长期依赖语言作为“脚手架”,始终没有完全摆脱语言监督的限制,也还没能真正实现自己的scaling law。

如果对这一点感兴趣,可以参考前Sora 负责人Aditya在2024年智源大会的报告 “Language as the Scaffolding for Visual Intelligence”。

多模态大模型的另一个标志事件是2024年5月发布的GPT-4o,大幅提升了语音自然交互的能力:此前需要依次完成语音识别、自然语言对话、语音合成的三步流程,合并为端到端的一步。
这和ChatGPT替代传统对话系统一样:用一个“通用”的模型,取代由多个中间任务拼接而成的pipeline。

站在这些模型背后的“那个男人”是OpenAI的首席科学家:Ilya Sutskever。
这个名字在AI发展的多个重要节点反复出现:
- 2012年,他是AlexNex的第二作者,也被普遍认为是核心方法的主要提出者,开了深度学习;
- 2016年,作为DeepMind团队之外唯一的AlphaGo核心成员,让机器在极端复杂决策的问题上超越人类。

Ilya也是2023年底OpenAI“宫斗”事件的主要发起者,并最终在2024年5月从OpenAI离职.
值得注意的是,在他离职后,2024年9月推出的o1推理模型仍然把他列为核心贡献者(Foundational Contributors)。
正是这一模型,开启了AI Agent的时代。

大模型出现之前,AI的定位是“专用工具”。
无论是专家系统、传统机器学习,还是早期的深度学习,都依赖专业界面和明确指令,解决的是边界清晰的专用任务。
在这种模式下,AI 与历史上此前技术革命没有本质区别:始终是被人类调用的工具,比如在 Photoshop 中进行交互式抠图。
大模型带来了通用任务能力和自然语言交互界面,使AI成为人机协作的Co-Pilot:人给出明确指令,AI 按步骤执行。
比如GPT-4o根据自然语言完成生成、抠图或风格迁移。但在这一阶段,仍然是是人指挥一步,AI执行一步。
除了内容理解和生成的感知能力,模型逐步具备了任务规划、工具使用和记忆的认知决策和行动能力。AI 开始能够直接理解目标导向的高层需求。
例如提出“为新产品设计海报并发布到小红书”,Manus 可以自主拆解任务、调用工具或其他 Agent 来完成子任务。
在这一阶段,AI 从副驾驶走向主驾驶(Auto-Pilot),也就是 AI Agent。按 OpenAI 的定义,AI Agent 是具备自主理解、规划、记忆和工具调用能力,能够自动完成复杂任务的系统。

从 Agent 这个概念本身来看,哲学和AI领域有不同定义。
这里我们只采用技术层面的定义,关注自主性、反应性和交互性,不讨论尚未形成共识的意识等问题。
实际上,Agent一直是AI发展的核心概念。
从技术路径看,先后经历了基于规则和基于强化学习两个阶段。
AlphaGo以及OpenAI早期的游戏Agent,依赖强化学习,在单一任务、封闭环境中超过了人类的水平。
今天的AI Agent建立在预训练大模型之上,通过预训练获得了世界知识先验,并以自然语言作为统一的任务接口,从而突破了纯强化学习方法在泛化性和通用性上的限制。
下面我们主要关注前者-智能代理的发展。

当前AI Agent主要有两类应用:
- 操作型Agent更像“眼和手”,擅长与环境交互和执行操作,适用于重复性强、操作密集的自动化任务;
- 信息型Agent是“大脑”,擅长信息检索、知识整合和复杂分析,适用于知识密集型任务。

在实现方式上,目前主要有三种:GUI Agent、API Agent 和Agent-to-Agent。
豆包手机采取的是GUI Agent的方案,通过多模态能力模拟人与GUI的交互。优点是通用性好,让AI在不改变现有应用生态的情况下完成任务;缺点是对模型能力要求较高,对于复杂指令执行效率低。
相比起来,API Agent直接调用应用后台接口,执行效率高,但前提是需要打通应用和Agent之间的协作通道。
Agent-to-Agen是当前阶段一种可能的折衷方案:由系统级 Agent 负责理解目标与规划,再调用各类垂直App Agent执行具体任务,在一定程度上兼顾通用性与效率。

从长期看,GUI Agent 和 API Agent 代表了两条不同的发展思路。
GUI Agent 的核心思想是:让AI适应人类已经存在的数字世界;对应看,人形机器人是让AI适应人类的物理世界。
相比物理世界,数字世界更容易被改造。因此API Agent走的是另一条路径:为AI构建一个原生世界,包括为AI设计的工具、接口和通信方式,从而摆脱对人类界面的依赖。


过去三年,在AI Agent核心能力获取和应用构建上,我们看到了类似的从基于外部工作流向模型原生(model-native)发展的趋势。
核心能力层面:
- 任务规划:早期依赖类似Chain-of-Thought(CoT)的提示词来“触发”,在o1、R1这类推理模型中,规划过程以内生方式由模型直接生成;
- 工具使用:从系统层的硬编码工作流、基于ReAct的提示词驱动,逐步发展到o3等模型中作为原生能力出现;
- 记忆管理:从以RAG为代表的外部检索机制,发展到像MEM1、MemAct等将记忆视为模型策略中一种特殊行为的方案。
应用层面
- GUI Agent在2024年主要依赖闭源多模态模型+外部Agent框架,2025年从UI-TARS开始将感知、决策和操作等关键能力内化到模型中;
- Deep Research Agent也从谷歌早期高度依赖工作流,发展到OpenAI率先将核心环节模型化,大幅提升了长程规划能力和调研深度。

以工具使用为例,可以用几个不太严谨的类比来理解模型原生的潜在优势。
基于外部工作流的工具使用,包括类似Coze的可视化编辑系统流程的硬工作流,和ReAct在提示词中加入“思考(Reasoning)-行动(Action)-观测(Observation)“循环的例子来引导的软工作流。
硬工作流有点像《水浒传》里潘金莲喂药的固定脚本,作为执行环节的大模型就像被喂药的武大郎,别无选择,只能完全遵从。
软工作流稍微灵活一些,更像《西游记》里最后一难过通天河时,观音给老鼋的指令。是否遵从指令,要结合执行时的具体上下文由老鼋自己决定。
模型原生的方法大致可以分两种:生成式原生和端到端原生。
第一种,生成式原生的代表是推理模型之后的做法:比如Manus先用模型原生的推理能力做任务分解与规划,生成一个结构化行动计划,再结合每一步观测到的局部上下文,逐步调用工具或子Agent去执行。
对应的例子是《三国演义》里的周瑜:有强大的推理能力,可以自主规划。但受限于能观测到的信息,因此可能成功(如赤壁之战的苦肉计),也可能因为信息不完备而翻车(入赔了夫人又折兵)。
第二种,端到端原生更进一步:像o3这类模型,在大量“多轮思考-工具调用”的任务轨迹上训练,让模型在思考过程中自己决定何时、如何调用工具。
这可以用诸葛亮的“隆中对“来理解。诸葛亮在出山之前,已经为刘备推演了天下未来数十年的走向。因此在执行时,能结合推演和终局做出最优的规划和决策。
面向任务目标对模型的规划和工作调用行为进行端到端优化。模型在规划和执行时,由于面向任务目标进行了训练,是基于全局上下文的,就好像能“看”到未来。


前面我们用Next-Token Prediction(NTP)解释了为什么大模型预训练能够获得通用能力。同样的视角,也可以用来理解模型原生AI Agent的能力来源。
核心在于:规划、工具使用和记忆管理能力的内化训练,本质上是在优化一种“广义的 Next-Token Prediction”。
在 AI Agent 场景中,被预测的“序列”不再只是自然语言 token,还有:
- plan/subgoal(规划序列)
- tool-call(工具调用序列)
- 状态的控制与更新(记忆管理序列)
当这些能力被统一为token序列预测目标,它们就自然继承了NTP所带来的scaling特性。
从更抽象的角度看:
- LLM 的预训练,通过实现序列预测,学习到的是一个通用的序列生成图灵机;
- 模型原生 AI Agent 的训练,通过对“任务完成过程中交互序列”的预测,学习到的是一个通用的序列交互图灵机。
关于Next-Token Prediction与学习图灵机的关系,以及为什么它可以scaling的理论基础,下一部分我们从计算信息学的角度做一个简单理解。

2024年的诺贝尔物理学奖颁给了Hopfield和Hinton,奖励他们"将物理思想和方法应用于机器学习"。但从物理学的角度,更长远的意义可能是: 他们为”从信息的角度建模和理解世界“提供了一条可行的路径。
- 经典物理在宏观尺度上,用物体、力和运动来理解世界;
- 量子物理在微观尺度上,将世界还原为粒子、波函数与场的相互作用;
- 信息物理学则尝试从信息与计算的视角,对物质、能量乃至时空结构进行统一刻画和解释。

"信息"最早被香农定义用来描述通信系统中信号的编码和传输,但很快人们发现信息熵公式与玻尔兹曼的热力学熵公式惊人的相似。
惠勒则进一步提出了:“It from Bit”:物理世界中的一切“存在”(It),粒子、场、时空结构,都源于一系列基本的“是/否”选择(Bit)。
信息,可能与质量、能量等一样,是物理世界的一种基本属性,而且或许是更底层的描述语言。
如果说香农定义了信息的度量,图灵则划定了信息的可计算边界:世界的运行是对信息状态的计算。图灵机以极端简化的形式证明:任何复杂的逻辑过程,都可以分解为一系列有限的、确定的符号操作。
当把“万物皆信息”与“信息可计算”放在一起,一个更激进却越来越清晰的推论浮现出来:如果思维过程、生物系统乃至物理规律都能被建模为信息的计算,世界在本质上,或许就是一个巨大的信息处理系统。
Demis Hassabis和Ilya或许是当下对AI理解最深刻的两个人。Hassabis最近在DeepMind播客的年终访谈中说:“至今为止,我们尚未在宇宙中发现任何不可计算的事物。” 围棋中的直觉博弈、蛋白质折叠的高维物理过程,这些曾被认为极其复杂、难以形式化的问题,都已被证明可以通过算法解构与预测。
在他看来,“只要方法得当,计算不仅能够逼近复杂系统的行为,甚至有可能在原则上模拟整个宇宙的运行”。

从计算理论看,大模型是一种通用计算装置,也就是一台图灵机。相应的,对大模型的训练,本质上是图灵机的学习问题。
它的核心结论是:
- 任何计算问题,都可以等价地转化为预测序列中下一个元素的问题;
- 在资源无限的理想条件下,这种预测过程可以逼近最优的计算装置,也就是最优的图灵机。
因此,Next-Token Prediction之所以能持续scaling,是有理论依据的;它同时解释了:仅通过不断scale up数据、模型和算力,就可能逐步逼近通用智能。
Ilya在2023年8月的一次报告中,首次讨论了大模型训练与所罗门诺夫归纳之间的关系。可以认为,基于Next-Token Prediction的大模型预训练是对所罗门诺夫归纳的工程化实现:在有限资源约束下,对“最优可计算装置”的持续逼近
Ilya在 2016 年找到了二者的关联,从而坚定了Next-Token Prediction的技术路线和scale up的信仰。
当Transformer架构出现后,IIya认为这就是他所需要的进行scale的工具,于是在OpenAI推动了算法工程化和工程算法化的范式变革,进而带来了今天GPT系列和大模型的成功。

回顾这条时间线:
- 图灵在1936年提出了图灵机,作为最广义的计算装置;
- 所罗门诺夫在1964年完成了所罗门诺夫归纳的证明,给出了最广义的学习方式;
- 直到快60年后,Ilya才在GPT-3中,通过对大模型的大规模Next-Token Prediction训练,第一次在工程层面实现了这一思想。
在处处谈scaling law和大模型原生的今天,2个时代、甚至3个时代前的AI人和AI方法已经被认为过时了。
但如《人工智能简史》的作者尼克老师所说的:“理论不是落后于实践,而是太超前了”。
“酒还是陈的香”,也许是我们还不够老,还没有学会到更早的经典理论中去寻找指导。
万一,可以找到另一个大模型的第一性原理呢?

2026年初的AI领域依然热闹、也依然浮躁。噪音之中,我们尝试寻找信号。
第一个信号,和Ilya时隔一年多再次接受采访中的一句话有关:“我们正在从 scaling 的时代,进入 research 的时代”。他所说的research,可能是什么?

回答这个问题,需要先看看我们已经经历了哪些research-scaling循环?让我们回到“从算力到智能的 Sweet Lesson”。
过去十年算力规模提升了百万倍。当算力成为主要的推动因素后,AI发展的一条核心线索是:如何把越来越多的算力,以尽可能高的效率转化为智能的提升。
这一过程大致经历了算法和数据两个阶段。早期从SVM到DNN再到Transformer,是在算法侧消化算力,让模型能够在大规模数据上训练更大的参数规模,到Transformer已基本收敛了。
接下来要解决的,是如何提供源源不断的数据。这包括了预训练基于自监督学习可以吃掉整个互联网的数据,以及后训练通过强化学习将算力转化为高质量的合成数据。
所以,大模型和AI Agent的发展,已经经历了两轮的research-scaling循环:Transformer和自回归语言模型的research带来的大规模预训练的scaling,以及大语言模型强化学习的research带来后训练数据的scaling。
Ilya 所说的新的“research 时代”,正是重新打开下一轮scaling空间的关键问题。

这个问题的答案,很可能是Hassabis也在多个场合提到的“AGI实现之前需要解决的几个核心问题”之一的“持续学习”(continual/self-evolving learning)。
这意味着模型参数不再是离线训练后就是静态的,而是可以在推断的过程中持续更新,实现“越用越聪明“。
相比后训练在“模拟经验”数据上scaling,持续学习是把执行任务过程中的"真实经验"数据沉淀、内化为模型能力,实现真正的test-time scaling。
Google的Nested Learning工作和NVIDIA的TTT-E2E是这个方向最近值得关注的工作。

这里还有一个问题:预训练的scaling,我们已经可以放在NTP的理论框架下解释。后训练RL的scaling,以及接下来可能实现的持续学习的scaling,是否也存在类似的理论解释?
直观感觉,后训练和持续学习也是在做某种NTP,只是学习分布和学习方式发生了变化。
- 在后训练阶段,模型不仅拟合观测到的数据分布,而通过模拟环境中的离线主动交互,筛选出高奖励的轨迹;本质上,是在一种奖励约束的特定分布上进行 NTP,将高价值的任务执行路径压缩到模型参数里。
- 在持续学习阶段,模型可以看成在真实世界的非平稳分布上进行NTP,通过在线主动交互持续捕捉环境的动态变化,应对失效的静态预训练知识。
期待可以看到进一步的理论研究,讨论NTP能够作为统一的视角,解释从预训练、到强化学习、再到持续学习的 scaling 行为,以及这些路径的能力边界在哪里。

第二个信号,让我们把视角进一步拉高,从生物智能的演化中寻找线索。
马毅老师提出了智能演化的四阶段路径:物种智能 -> 个体智能 -> 社会智能 -> 机器智能,将机器智能作为前三阶段自然演化智能的延续。
智能本质上是相通的。如果将机器智能看作一种新的智能形式,它的演化很可能会重复生物智能的物种->个体->社会三阶段路径。

我们看到机器智能的发展有很多和生物智能相似的地方。 AI Agent 的发展:能力、技术架构和软硬件形态
首先,驱动生物智能进化背后的是能量供给的增长,对应了前面讨论的机器智能提升背后的算力增长。这包括了指令式计算阶段的摩尔定律,和智能计算阶段的规模定律。

从物种智能进入个体智能阶段,生物智能和机器智能的发展重心都从“硬件”转向了“软件”。
生物智能方面,由基因决定的物种级生理结构进化速度放缓,转向以学习和经验驱动的个体智能发展。
机器智能方面则对应了前面讨论的从算法到数据过渡的算力->智能阶段:在基于Transformer的模型算法架构成熟和稳定后,机器智能的提升主要来源于数据和经验。

进一步进入社会智能阶段,AI Agent将从被动的智能代理转变为主动的社会智能体。
智能代理以完成人类指定的任务为目标,社会智能体则是具备身份、信用、价值交换能力,成为社会主体之一,可以基于社会身份自主设定目标和发起任务。
人机关系将经历类似生物智能后工业革命时代从“人主导、机器辅助”(human-in-the-loop)到“人监督、机器执行” (human-on-the-loop),再到某些场景下由 AI 按需调用人类能力的“机器主导、人辅助”(human-on-demand)的转变。

根据乔布斯在40年前总结的“在越来越高的抽象级别上使用计算机”的规律,我们现在已经经历了从机器码与高级语言阶段的 how to do,到大模型阶段的 what to do,再到当下 AI Agent 阶段的 what I want。

社会智能体将继续在更高的抽象层级上满足人类需求。当需求进一步抽象,甚至可以被表达为一种“角色”(who you are)。
这种模式下,人授权机器在某个角色身份下自主决策和行动,机器可以主动发起行为、持续与环境互动,甚至在必要时反过来向人类指派任务。

因此,大模型与 AI Agent 的发展,不仅是一场技术变革,更是一场深层次的社会变革。
2026 年,随着越来越多AI Agent形态的应用落地,技术-应用鸿沟正在被逐渐填平,社会层面的影响也将开始显现。
从“只给建议”的聊天机器人到能“把事情做完”的Manus,这种转变尚未被完全适应;但从被动响应走向主动行动的Clawdbot,已经呼啸而来。
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?
答案只有一个:人工智能(尤其是大模型方向)
当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右。
再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。


对于想入局大模型、抢占未来10年行业红利的程序员和小白来说,现在正是最好的学习时机:行业缺口大、大厂需求旺、薪资天花板高,只要找准学习方向,稳步提升技能,就能轻松摆脱“低薪困境”,抓住AI时代的职业机遇。
如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!
下面是我整理的大模型学习资源,希望能帮到你。

扫码免费领取全部内容


从入门到进阶这里都有,跟着老师学习事半功倍。


2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。


【大厂 AI 岗位面经分享(107 道)】

【AI 大模型面试真题(102 道)】

【LLMs 面试真题(97 道)】


适用人群

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
👇👇扫码免费领取全部内容👇👇

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/241587.html