来源:斯坦福CS230深度学习课程
讲师:Kian Katanforoosh
原始视频:https://youtu.be/k1njvbBmfsw
整理:曲率团队(2026-04-13)
你可能听过很多AI名词,Prompt、RAG、Agent、Eval……
但说实话,大部分人听完还是一头雾水。
这堂斯坦福的课,两小时,把”如何用AI构建真正能干活的系统”从头到尾讲了一遍。
我把它掰开揉碎整理成了这篇笔记,哪怕你对AI只有最基础的了解,看完也能搞懂。
先说结论:这堂课的核心就一句话,怎么用工程手段,把现有的AI模型性能拉到最大。
同样是GPT/Claude/GLM,或者同样是养龙虾,有人只能做出60分,但是有人能做到600分。
这篇课程,就给你讲清楚,怎么做到600分。
整堂课分8个模块,像搭积木一样,从最简单的开始,一层一层往上叠:
AI模型有哪些天生的短板
Prompt工程:怎么跟AI说话它才听得懂
微调:为什么尽量别碰
RAG:给AI接上外部知识库
智能体工作流:让AI学会自己干活
Eval评估:怎么知道AI干得好不好
多智能体系统:一群AI各司其职
AI的未来往哪走
你会发现,这8个模块其实对应了一条清晰的路径:从"给AI发一条消息"到"构建一个能自动干活的AI系统"。
在进入具体模块之前,先理解一张图。
讲师说,提升AI性能有两个方向:
横轴:换更好的模型。
比如从GPT-3.5升级到GPT-4,再到GPT-5。模型本身变强了,你啥都不用做,效果就会变好。
纵轴:用工程手段增强。
同一个模型,通过更好的Prompt、加上RAG、搭建智能体工作流,性能也能大幅提升。
这堂课讲的就是纵轴。
说白了就是,你手上的模型已经够用了,关键是你会不会用。
为什么不能直接拿一个ChatGPT就上?讲师列了6个核心问题:
1. 领域知识缺失
你问它农作物病虫害怎么治?它大概率答不好。因为训练数据里这类内容太少了。
2. 信息会过时
AI的知识有截止日期。
特朗普当年发了条推特"covfefe",这个词根本不存在,当时Twitter的AI系统直接懵了,推荐系统全乱套。
3. 难以控制
微软2016年做了一个Twitter聊天机器人Tay,结果上线16小时就变成了种族歧视者,紧急下线。
就连OpenAI和马斯克的Grok,到现在也在互相指责对方的AI有政治偏见。
4. 上下文有限
目前最好的模型,上下文窗口大概能装两本书的内容。
听起来不少,但如果你要让AI读完公司网盘里所有文档再回答问题,远远不够。
5. 幻觉问题
AI会一本正经地编造不存在的东西。
你让它找论文来源,它能编出完全假的论文标题、作者、期刊,看着像真的,但全是瞎编。
6. 缺乏来源追溯
它告诉你答案,但不告诉你这个答案从哪来。
在法律、医疗、教育这些领域,没有来源的答案基本等于没用。
为什么呢?
因为这些短板的存在,才需要后面的一系列增强技术。
这是投入产出比最高的一环。
讲师引用了一个哈佛、沃顿、宾大联合做的研究:
他们把一群BCG咨询顾问分成三组:
- 不用AI的
- 用AI但没受过训练的
- 用AI且受过Prompt训练的
结果发现两个有意思的事:
第一,“锯齿前沿”。
有些任务AI帮了大忙,有些任务AI反而拖了后腿。
关键是你得识别哪些任务适合交给AI,哪些不适合。
第二,受过训练的组表现最好。
说白了,会不会写Prompt,直接决定了AI对你有没有用。
那具体怎么写好Prompt?
讲师给了一个从入门到进阶的技术栈:
差的Prompt:“帮我总结这个文档。”
好的Prompt:“把这篇10页的可再生能源论文总结成5个要点,面向政策制定者,重点讲关键发现和影响。”
什么意思呢?
就是你得告诉AI四件事:
给谁看的、什么格式、聚焦什么、全文多长。
“假装你是一个在达沃斯做演讲的可再生能源专家。”
听起来很搞笑,但确实有效。
GitHub上有大量现成的Prompt模板库可以参考。
这个特别实用。
举个例子,你让AI判断用户评论是正面还是负面,“产品还行,但我期望更多”,不同人会给出不同判断。
怎么办?
给AI几个例子:
- “完全超出期望” → 正面
- “还行但希望有更多功能” → 负面
- “既不好也不坏” → 中性
AI看了这几个例子,就跟你对齐了。
说白了就是在Prompt里建了一个微型数据集。
比微调快得多,而且不用动模型。
在Prompt里加一句:
“一步一步思考,不要跳过任何步骤。”
就这么简单,复杂任务的表现能提升一大截。
这是讲师最强调的一个方法。
假设你要AI帮客户写回复邮件。
你可以写一个Prompt,把所有要求塞进去,让AI一步到位。
但问题是,如果结果不好,你不知道是哪一步出了问题。
更好的做法是拆成三步:
- 第一步:提取客户的关键问题
- 第二步:基于这些问题起草一个回复大纲
- 第三步:基于大纲写出完整回复
每一步独立运行,独立测试。
哪一步效果差,就优化哪一步。
三种方法:
- 手动A/B测试:人工对比不同版本
- 自动化平台:比如PromptFoo,同时跑5个模型对比
- LLM评委:用另一个AI来给结果打分。可以是"两个结果选哪个好",也可以是"按1-5分打分",还可以给一个详细的评分标准
微调就是拿你自己的数据去调整模型参数。听起来很美好,但讲师给了三个理由让你三思:
需要大量标注数据,成本高、耗时长
容易过拟合,模型在你的任务上变好了,但在其他事情上变傻了
最扎心的一点:等你花几个月微调完,新一代基础模型发布了,性能直接超过你的微调版
讲师讲了一个很搞笑的反面教材。
有个人拿公司Slack聊天记录去微调模型,想让模型像同事一样工作。
结果让模型写博客,模型回:“我明天早上再做。”
催它,它说:“我正在写,现在才早上6点半。”
模型学会了人的摸鱼行为,而不是工作能力。
什么时候微调仍然有用?
只有两种场景:任务需要反复高精度输出(比如法律文书),或者通用模型确实搞不定你的领域语言。
RAG是Retrieval-Augmented Generation的缩写,翻译过来就是"检索增强生成"。
这是目前最常见的AI面试题之一。
它解决的问题很直接:
上下文不够?接外部文档库
知识过时?文档库可以随时更新
会产生幻觉?基于文档回答,有据可查
没有来源?可以标注到具体页码和章节
想象你有一堆公司文档。RAG做的事情分三步:
第一步,建库。
把所有文档转化成一种叫"向量"的数字表示,存到一个专门的向量数据库里。
你可以理解为,把每份文档压缩成一个"指纹"。
第二步,检索。
用户问了一个问题,这个问题也被转成"指纹",然后去数据库里找最像的文档。
就像你在搜索引擎里搜东西一样。
第三步,生成。
把找到的相关文档和用户的问题一起丢给AI,AI基于这些文档来回答,还能告诉你答案来自哪份文档的哪一页。
分块(Chunking):
一份100页的文档,整体做一个"指纹",细节肯定丢失。
更好的做法是同时存整份文档和每个章节的"指纹",检索时能精确到章节。
HyDE(假设文档嵌入):
这个方法特别巧妙。
用户的问题通常很短,比如"药物X的副作用是什么?"但文档是长长的说明书。
短句和长文在向量空间里距离很远,不容易匹配上。
怎么办?
先让AI根据用户的问题编一份"假回答",虽然内容可能不准,但格式和长度跟真正的文档很像。
然后用这份假文档的"指纹"去搜,就容易匹配到真正的文档了。
前面讲的Prompt、RAG,本质上都是"你问一句,AI答一句"。
但真实的工作场景远比这复杂。
举个例子:用户问"我可以退款吗?"
普通AI(带RAG)的回答:
“根据退款政策,购买后30天内可以退款。”
完事了。
智能体AI的做法:
检索退款政策 → 追问"你的订单号是多少?" → 查API核实订单状态 → 确认"你的订单符合退款条件,金额将在3-5个工作日内到账。"
你会发现,第二种方式更像一个真正的客服在帮你处理问题。
这就是智能体工作流的价值。
四个核心组件:
1. 提示词 —— 经过精心优化的指令模板
2. 记忆系统 —— 分两种:
- 工作记忆:每次对话都要用的信息,比如你的名字。必须秒级响应
- 归档记忆:偶尔才用的信息,比如你的生日。可以慢一点
为什么这么分?
因为每次AI跟你说话,都要先读一遍记忆。如果读记忆要3秒,你每句话都要等3秒,体验就很差。
3. 工具 —— API调用、数据库查询、代码执行、网页搜索
4. 资源 —— CRM数据、文档库等外部数据源
你可能听过MCP(Model Context Protocol),是Anthropic提出的标准协议。
传统方式:每个API你都要手动教AI怎么调用,写文档、配参数,一个一个来。
MCP方式:相当于给AI和外部服务之间建了一个"标准接口"。AI可以自己去跟服务"谈判",搞清楚对方需要什么信息、能提供什么数据。扩展性好很多。
讲师特别强调了一点:构建AI系统的思维方式跟传统软件完全不同。
实战建议:先搞定确定性的部分,再处理模糊的部分,并且给模糊的部分加上护栏。
麦肯锡研究了一家金融机构写信用风险备忘录的流程:
改造前: 关系经理从15+数据源收集信息 → 跟分析师协作 → 分析师花20+小时写备忘录 → 反复修改 → 1-4周完成
改造后: 关系经理+AI智能体 → 智能体自动分解任务、采集数据、起草备忘录 → 人工审阅反馈 → 时间减少20-60%
但讲师说了一句很实在的话:技术改造容易,改变人的行为才是最难的。 大概率需要10-20年才能在大企业里真正落地。
这部分是整堂课最实战的内容。
假设你要构建一个客户支持AI。讲师说,第一步不是写代码,而是跟一个真人客服坐一天,看ta怎么工作。
观察完你会发现,客服的工作可以分解成这几步:
用户输入 → 提取信息 → 查数据库 → 检查政策 → 起草回复 → 发送邮件
然后你给每一步选技术:
- 提取信息 → 普通LLM就够
- 查数据库 → 需要工具/API
- 起草回复 → LLM + 确认信息
- 发邮件 → API调用
前提条件:必须有LLM Traces(追踪记录)。
讲师说,如果你去面试AI创业公司,一定要问"你们有LLM追踪吗?"
没有追踪,就没法调试,等于在黑箱里摸鱼。
评估分四个维度:
实操流程是这样的:
- 先手动看20个案例。
你可能一眼就发现,AI回复太粗鲁了
- 设计一个评估指标。
比如让LLM评委按照"礼貌度评分标准"来打分
- A/B测试。
换个模型试试?或者改一下Prompt?
- 量化对比,选最优方案
然后不断循环。
这就是为什么Eval不是事后补的,而是系统设计的一部分。
你可能会问,一个智能体不就够了吗?为什么要搞多个?
三个理由:
并行化 —— 多个独立任务同时跑,快
可复用 —— 一个设计Agent,营销团队能用,产品团队也能用
好调试 —— 调一个专门的Agent,比调整个系统容易得多
学生们设计了一套智能家居AI系统:
- 运动追踪Agent:知道你在家的哪个位置
- 温控Agent:调节每个房间的温度
- 能源管理Agent:追踪能耗效率
- 安全Agent:管门禁,不同家庭成员有不同权限
- 环境Agent:接天气API,自动控制百叶窗
- 食材Agent:监控冰箱存货,自动在电商下单补货
- 编排Agent:你跟这一个Agent说话,它帮你调度其他所有Agent
三种模式:
- 扁平式:所有Agent互相连接,适合需要大量直接通信的场景
- 层级式:一个编排者统一调度,用户只跟编排者说话
- 混合式:大部分走编排者,但温控和能源Agent可以直接对话
Agent之间的通信,本质上就是MCP协议。你把一个Agent当工具来调用,告诉它"你能做什么、需要什么信息"就行了。
讲师分享了5个趋势,值得停下来想一想:
大概率会。
但突破口在于架构搜索。
想想看,Transformer的发明改变了整个AI的方向。
下一个"Transformer级别"的架构突破,可能会把计算需求降低10倍。
所以那些AI实验室疯狂招人,赌的就是这个。
一个有意思的发现:
AI懂了图片之后,文字也变好了。再加上音频、视频,全面变强。
讲师用了一个很形象的类比:
如果AI知道猫叫声是什么样的,又知道猫长什么样,那它写关于猫的文章也会更好,甚至未来机器人躲猫也更灵活。
所有模态互相增强。
讲师拿婴儿学习做类比:
- DNA里编码的本能 = 元学习/预训练
- 父母指着说"好的、坏的" = 监督学习
- 摔倒了感觉疼 = 强化学习
- 观察其他人怎么做 = 无监督学习
未来的AI大概率是这些方法的融合体。
这是讲师特别强调的一点,也是这门课的设计理念:教广度,不教深度细节。
今天你学的RAG第17种优化方法,2年后大概率已经过时了。
正确策略是:先有宽基础,需要的时候再按需深挖。
按优先级排序:
Prompt工程是第一道防线,投入小、产出大,先把这个做好
提示链 > 单步Prompt,关键在于可调试性
尽量别做微调,除非你有极强的领域需求,否则下一代模型直接超过你
RAG是知识增强的标配,但要选对分块和检索策略
构建智能体的第一步是任务分解,先跟真人坐一天
Eval不是事后补课,是系统设计的一部分
多Agent的核心价值是并行和复用,不是为了酷
确定性和模糊性分开处理,先把确定性的搞定,再给模糊的加护栏
原始视频:https://youtu.be/k1njvbBmfsw
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/261451.html