一文看懂斯坦福2小时AI系统课，最好的Harness教学

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

 来源：斯坦福CS230深度学习课程

讲师：Kian Katanforoosh

原始视频：https://youtu.be/k1njvbBmfsw

整理：曲率团队（2026-04-13）

你可能听过很多AI名词，Prompt、RAG、Agent、Eval……

但说实话，大部分人听完还是一头雾水。

这堂斯坦福的课，两小时，把”如何用AI构建真正能干活的系统”从头到尾讲了一遍。

我把它掰开揉碎整理成了这篇笔记，哪怕你对AI只有最基础的了解，看完也能搞懂。

先说结论：这堂课的核心就一句话，怎么用工程手段，把现有的AI模型性能拉到最大。

同样是GPT/Claude/GLM，或者同样是养龙虾，有人只能做出60分，但是有人能做到600分。

这篇课程，就给你讲清楚，怎么做到600分。

整堂课分8个模块，像搭积木一样，从最简单的开始，一层一层往上叠：

AI模型有哪些天生的短板

Prompt工程：怎么跟AI说话它才听得懂

微调：为什么尽量别碰

RAG：给AI接上外部知识库

智能体工作流：让AI学会自己干活

Eval评估：怎么知道AI干得好不好

多智能体系统：一群AI各司其职

AI的未来往哪走

你会发现，这8个模块其实对应了一条清晰的路径：从"给AI发一条消息"到"构建一个能自动干活的AI系统"。

在进入具体模块之前，先理解一张图。

讲师说，提升AI性能有两个方向：

横轴：换更好的模型。

比如从GPT-3.5升级到GPT-4，再到GPT-5。模型本身变强了，你啥都不用做，效果就会变好。

纵轴：用工程手段增强。

同一个模型，通过更好的Prompt、加上RAG、搭建智能体工作流，性能也能大幅提升。

这堂课讲的就是纵轴。

说白了就是，你手上的模型已经够用了，关键是你会不会用。

为什么不能直接拿一个ChatGPT就上？讲师列了6个核心问题：

1. 领域知识缺失

你问它农作物病虫害怎么治？它大概率答不好。因为训练数据里这类内容太少了。

2. 信息会过时

AI的知识有截止日期。

特朗普当年发了条推特"covfefe"，这个词根本不存在，当时Twitter的AI系统直接懵了，推荐系统全乱套。

3. 难以控制

微软2016年做了一个Twitter聊天机器人Tay，结果上线16小时就变成了种族歧视者，紧急下线。

就连OpenAI和马斯克的Grok，到现在也在互相指责对方的AI有政治偏见。

4. 上下文有限

目前最好的模型，上下文窗口大概能装两本书的内容。

听起来不少，但如果你要让AI读完公司网盘里所有文档再回答问题，远远不够。

5. 幻觉问题

AI会一本正经地编造不存在的东西。

你让它找论文来源，它能编出完全假的论文标题、作者、期刊，看着像真的，但全是瞎编。

6. 缺乏来源追溯

它告诉你答案，但不告诉你这个答案从哪来。

在法律、医疗、教育这些领域，没有来源的答案基本等于没用。

为什么呢？

因为这些短板的存在，才需要后面的一系列增强技术。

这是投入产出比最高的一环。

讲师引用了一个哈佛、沃顿、宾大联合做的研究：

他们把一群BCG咨询顾问分成三组：

不用AI的
用AI但没受过训练的
用AI且受过Prompt训练的

结果发现两个有意思的事：

第一，“锯齿前沿”。

有些任务AI帮了大忙，有些任务AI反而拖了后腿。

关键是你得识别哪些任务适合交给AI，哪些不适合。

第二，受过训练的组表现最好。

说白了，会不会写Prompt，直接决定了AI对你有没有用。

那具体怎么写好Prompt？

讲师给了一个从入门到进阶的技术栈：

差的Prompt：“帮我总结这个文档。”

好的Prompt：“把这篇10页的可再生能源论文总结成5个要点，面向政策制定者，重点讲关键发现和影响。”

什么意思呢？

就是你得告诉AI四件事：

给谁看的、什么格式、聚焦什么、全文多长。

“假装你是一个在达沃斯做演讲的可再生能源专家。”

听起来很搞笑，但确实有效。

GitHub上有大量现成的Prompt模板库可以参考。

这个特别实用。

举个例子，你让AI判断用户评论是正面还是负面，“产品还行，但我期望更多”，不同人会给出不同判断。

怎么办？

给AI几个例子：

“完全超出期望” → 正面
“还行但希望有更多功能” → 负面
“既不好也不坏” → 中性

AI看了这几个例子，就跟你对齐了。

说白了就是在Prompt里建了一个微型数据集。

比微调快得多，而且不用动模型。

在Prompt里加一句：

“一步一步思考，不要跳过任何步骤。”

就这么简单，复杂任务的表现能提升一大截。

这是讲师最强调的一个方法。

假设你要AI帮客户写回复邮件。

你可以写一个Prompt，把所有要求塞进去，让AI一步到位。

但问题是，如果结果不好，你不知道是哪一步出了问题。

更好的做法是拆成三步：

第一步：提取客户的关键问题
第二步：基于这些问题起草一个回复大纲
第三步：基于大纲写出完整回复

每一步独立运行，独立测试。

哪一步效果差，就优化哪一步。

三种方法：

手动A/B测试：人工对比不同版本
自动化平台：比如PromptFoo，同时跑5个模型对比
LLM评委：用另一个AI来给结果打分。可以是"两个结果选哪个好"，也可以是"按1-5分打分"，还可以给一个详细的评分标准

微调就是拿你自己的数据去调整模型参数。听起来很美好，但讲师给了三个理由让你三思：

需要大量标注数据，成本高、耗时长

容易过拟合，模型在你的任务上变好了，但在其他事情上变傻了

最扎心的一点：等你花几个月微调完，新一代基础模型发布了，性能直接超过你的微调版

讲师讲了一个很搞笑的反面教材。

有个人拿公司Slack聊天记录去微调模型，想让模型像同事一样工作。

结果让模型写博客，模型回：“我明天早上再做。”

催它，它说：“我正在写，现在才早上6点半。”

模型学会了人的摸鱼行为，而不是工作能力。

什么时候微调仍然有用？

只有两种场景：任务需要反复高精度输出（比如法律文书），或者通用模型确实搞不定你的领域语言。

RAG是Retrieval-Augmented Generation的缩写，翻译过来就是"检索增强生成"。

这是目前最常见的AI面试题之一。

它解决的问题很直接：

上下文不够？接外部文档库
知识过时？文档库可以随时更新
会产生幻觉？基于文档回答，有据可查
没有来源？可以标注到具体页码和章节

想象你有一堆公司文档。RAG做的事情分三步：

第一步，建库。

把所有文档转化成一种叫"向量"的数字表示，存到一个专门的向量数据库里。

你可以理解为，把每份文档压缩成一个"指纹"。

第二步，检索。

用户问了一个问题，这个问题也被转成"指纹"，然后去数据库里找最像的文档。

就像你在搜索引擎里搜东西一样。

第三步，生成。

把找到的相关文档和用户的问题一起丢给AI，AI基于这些文档来回答，还能告诉你答案来自哪份文档的哪一页。

分块（Chunking）：

一份100页的文档，整体做一个"指纹"，细节肯定丢失。

更好的做法是同时存整份文档和每个章节的"指纹"，检索时能精确到章节。

HyDE（假设文档嵌入）：

这个方法特别巧妙。

用户的问题通常很短，比如"药物X的副作用是什么？"但文档是长长的说明书。

短句和长文在向量空间里距离很远，不容易匹配上。

怎么办？

先让AI根据用户的问题编一份"假回答"，虽然内容可能不准，但格式和长度跟真正的文档很像。

然后用这份假文档的"指纹"去搜，就容易匹配到真正的文档了。

前面讲的Prompt、RAG，本质上都是"你问一句，AI答一句"。

但真实的工作场景远比这复杂。

举个例子：用户问"我可以退款吗？"

普通AI（带RAG）的回答：

“根据退款政策，购买后30天内可以退款。”

完事了。

智能体AI的做法：

检索退款政策 → 追问"你的订单号是多少？" → 查API核实订单状态 → 确认"你的订单符合退款条件，金额将在3-5个工作日内到账。"

你会发现，第二种方式更像一个真正的客服在帮你处理问题。

这就是智能体工作流的价值。

四个核心组件：

1. 提示词 —— 经过精心优化的指令模板

2. 记忆系统 —— 分两种：

工作记忆：每次对话都要用的信息，比如你的名字。必须秒级响应
归档记忆：偶尔才用的信息，比如你的生日。可以慢一点

为什么这么分？

因为每次AI跟你说话，都要先读一遍记忆。如果读记忆要3秒，你每句话都要等3秒，体验就很差。

3. 工具 —— API调用、数据库查询、代码执行、网页搜索

4. 资源 —— CRM数据、文档库等外部数据源

你可能听过MCP（Model Context Protocol），是Anthropic提出的标准协议。

传统方式：每个API你都要手动教AI怎么调用，写文档、配参数，一个一个来。

MCP方式：相当于给AI和外部服务之间建了一个"标准接口"。AI可以自己去跟服务"谈判"，搞清楚对方需要什么信息、能提供什么数据。扩展性好很多。

讲师特别强调了一点：构建AI系统的思维方式跟传统软件完全不同。

实战建议：先搞定确定性的部分，再处理模糊的部分，并且给模糊的部分加上护栏。

麦肯锡研究了一家金融机构写信用风险备忘录的流程：

改造前： 关系经理从15+数据源收集信息 → 跟分析师协作 → 分析师花20+小时写备忘录 → 反复修改 → 1-4周完成

改造后： 关系经理+AI智能体 → 智能体自动分解任务、采集数据、起草备忘录 → 人工审阅反馈 → 时间减少20-60%

但讲师说了一句很实在的话：技术改造容易，改变人的行为才是最难的。 大概率需要10-20年才能在大企业里真正落地。

这部分是整堂课最实战的内容。

假设你要构建一个客户支持AI。讲师说，第一步不是写代码，而是跟一个真人客服坐一天，看ta怎么工作。

观察完你会发现，客服的工作可以分解成这几步：

用户输入 → 提取信息 → 查数据库 → 检查政策 → 起草回复 → 发送邮件

然后你给每一步选技术：

提取信息 → 普通LLM就够
查数据库 → 需要工具/API
起草回复 → LLM + 确认信息
发邮件 → API调用

前提条件：必须有LLM Traces（追踪记录）。

讲师说，如果你去面试AI创业公司，一定要问"你们有LLM追踪吗？"

没有追踪，就没法调试，等于在黑箱里摸鱼。

评估分四个维度：

实操流程是这样的：

先手动看20个案例。

你可能一眼就发现，AI回复太粗鲁了

设计一个评估指标。

比如让LLM评委按照"礼貌度评分标准"来打分

A/B测试。

换个模型试试？或者改一下Prompt？

量化对比，选最优方案

然后不断循环。

这就是为什么Eval不是事后补的，而是系统设计的一部分。

你可能会问，一个智能体不就够了吗？为什么要搞多个？

三个理由：

并行化 —— 多个独立任务同时跑，快

可复用 —— 一个设计Agent，营销团队能用，产品团队也能用

好调试 —— 调一个专门的Agent，比调整个系统容易得多

学生们设计了一套智能家居AI系统：

运动追踪Agent：知道你在家的哪个位置
温控Agent：调节每个房间的温度
能源管理Agent：追踪能耗效率
安全Agent：管门禁，不同家庭成员有不同权限
环境Agent：接天气API，自动控制百叶窗
食材Agent：监控冰箱存货，自动在电商下单补货
编排Agent：你跟这一个Agent说话，它帮你调度其他所有Agent

三种模式：

扁平式：所有Agent互相连接，适合需要大量直接通信的场景
层级式：一个编排者统一调度，用户只跟编排者说话
混合式：大部分走编排者，但温控和能源Agent可以直接对话

Agent之间的通信，本质上就是MCP协议。你把一个Agent当工具来调用，告诉它"你能做什么、需要什么信息"就行了。

讲师分享了5个趋势，值得停下来想一想：

大概率会。

但突破口在于架构搜索。

想想看，Transformer的发明改变了整个AI的方向。

下一个"Transformer级别"的架构突破，可能会把计算需求降低10倍。

所以那些AI实验室疯狂招人，赌的就是这个。

一个有意思的发现：

AI懂了图片之后，文字也变好了。再加上音频、视频，全面变强。

讲师用了一个很形象的类比：

如果AI知道猫叫声是什么样的，又知道猫长什么样，那它写关于猫的文章也会更好，甚至未来机器人躲猫也更灵活。

所有模态互相增强。

讲师拿婴儿学习做类比：

DNA里编码的本能 = 元学习/预训练
父母指着说"好的、坏的" = 监督学习
摔倒了感觉疼 = 强化学习
观察其他人怎么做 = 无监督学习

未来的AI大概率是这些方法的融合体。

这是讲师特别强调的一点，也是这门课的设计理念：教广度，不教深度细节。

今天你学的RAG第17种优化方法，2年后大概率已经过时了。

正确策略是：先有宽基础，需要的时候再按需深挖。

按优先级排序：

Prompt工程是第一道防线，投入小、产出大，先把这个做好

提示链 > 单步Prompt，关键在于可调试性

尽量别做微调，除非你有极强的领域需求，否则下一代模型直接超过你

RAG是知识增强的标配，但要选对分块和检索策略

构建智能体的第一步是任务分解，先跟真人坐一天

Eval不是事后补课，是系统设计的一部分

多Agent的核心价值是并行和复用，不是为了酷

确定性和模糊性分开处理，先把确定性的搞定，再给模糊的加护栏

原始视频：https://youtu.be/k1njvbBmfsw

一文看懂斯坦福2小时AI系统课，最好的Harness教学

相关推荐