一文看懂斯坦福2小时AI系统课,最好的Harness教学

一文看懂斯坦福2小时AI系统课,最好的Harness教学p 来源 斯坦福 CS230 深度学习课程 p 讲师 Kian Katanforoosh 原始视频 https youtu be k1njvbBmfsw 整理 曲率团队 2026 04 13 你可能听过很多 AI 名词 Prompt RAG Agent Eval 但说实话 大部分人听完还是一头雾水 这堂斯坦福的课 两小时 把 amp rdquo

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

来源:斯坦福CS230深度学习课程

讲师:Kian Katanforoosh

原始视频:https://youtu.be/k1njvbBmfsw

整理:曲率团队(2026-04-13)

你可能听过很多AI名词,Prompt、RAG、Agent、Eval……

但说实话,大部分人听完还是一头雾水。

这堂斯坦福的课,两小时,把”如何用AI构建真正能干活的系统”从头到尾讲了一遍。

我把它掰开揉碎整理成了这篇笔记,哪怕你对AI只有最基础的了解,看完也能搞懂。

先说结论:这堂课的核心就一句话,怎么用工程手段,把现有的AI模型性能拉到最大。

同样是GPT/Claude/GLM,或者同样是养龙虾,有人只能做出60分,但是有人能做到600分。

这篇课程,就给你讲清楚,怎么做到600分。


整堂课分8个模块,像搭积木一样,从最简单的开始,一层一层往上叠:

:one: AI模型有哪些天生的短板

:two: Prompt工程:怎么跟AI说话它才听得懂

:three: 微调:为什么尽量别碰

:four: RAG:给AI接上外部知识库

:five: 智能体工作流:让AI学会自己干活

:six: Eval评估:怎么知道AI干得好不好

:seven: 多智能体系统:一群AI各司其职

:eight: AI的未来往哪走

你会发现,这8个模块其实对应了一条清晰的路径:从"给AI发一条消息"到"构建一个能自动干活的AI系统"


在进入具体模块之前,先理解一张图。

讲师说,提升AI性能有两个方向:

横轴:换更好的模型。

比如从GPT-3.5升级到GPT-4,再到GPT-5。模型本身变强了,你啥都不用做,效果就会变好。

纵轴:用工程手段增强。

同一个模型,通过更好的Prompt、加上RAG、搭建智能体工作流,性能也能大幅提升。

这堂课讲的就是纵轴。

说白了就是,你手上的模型已经够用了,关键是你会不会用。

为什么不能直接拿一个ChatGPT就上?讲师列了6个核心问题:

1. 领域知识缺失

你问它农作物病虫害怎么治?它大概率答不好。因为训练数据里这类内容太少了。

2. 信息会过时

AI的知识有截止日期。

特朗普当年发了条推特"covfefe",这个词根本不存在,当时Twitter的AI系统直接懵了,推荐系统全乱套。

3. 难以控制

微软2016年做了一个Twitter聊天机器人Tay,结果上线16小时就变成了种族歧视者,紧急下线。

就连OpenAI和马斯克的Grok,到现在也在互相指责对方的AI有政治偏见。

4. 上下文有限

目前最好的模型,上下文窗口大概能装两本书的内容。

听起来不少,但如果你要让AI读完公司网盘里所有文档再回答问题,远远不够。

5. 幻觉问题

AI会一本正经地编造不存在的东西。

你让它找论文来源,它能编出完全假的论文标题、作者、期刊,看着像真的,但全是瞎编。

6. 缺乏来源追溯

它告诉你答案,但不告诉你这个答案从哪来。

在法律、医疗、教育这些领域,没有来源的答案基本等于没用。

为什么呢?

因为这些短板的存在,才需要后面的一系列增强技术。


这是投入产出比最高的一环。

讲师引用了一个哈佛、沃顿、宾大联合做的研究:

他们把一群BCG咨询顾问分成三组:

  • 不用AI的
  • 用AI但没受过训练的
  • 用AI且受过Prompt训练的

结果发现两个有意思的事:

第一,“锯齿前沿”。

有些任务AI帮了大忙,有些任务AI反而拖了后腿。

关键是你得识别哪些任务适合交给AI,哪些不适合。

第二,受过训练的组表现最好。

说白了,会不会写Prompt,直接决定了AI对你有没有用。

那具体怎么写好Prompt?

讲师给了一个从入门到进阶的技术栈:

差的Prompt:“帮我总结这个文档。”

好的Prompt:“把这篇10页的可再生能源论文总结成5个要点,面向政策制定者,重点讲关键发现和影响。”

什么意思呢?

就是你得告诉AI四件事:

给谁看的、什么格式、聚焦什么、全文多长。

“假装你是一个在达沃斯做演讲的可再生能源专家。”

听起来很搞笑,但确实有效。

GitHub上有大量现成的Prompt模板库可以参考。

这个特别实用。

举个例子,你让AI判断用户评论是正面还是负面,“产品还行,但我期望更多”,不同人会给出不同判断。

怎么办?

给AI几个例子:

  • “完全超出期望” → 正面
  • “还行但希望有更多功能” → 负面
  • “既不好也不坏” → 中性

AI看了这几个例子,就跟你对齐了。

说白了就是在Prompt里建了一个微型数据集。

比微调快得多,而且不用动模型。

在Prompt里加一句:

“一步一步思考,不要跳过任何步骤。”

就这么简单,复杂任务的表现能提升一大截。

这是讲师最强调的一个方法。

假设你要AI帮客户写回复邮件。

你可以写一个Prompt,把所有要求塞进去,让AI一步到位。

但问题是,如果结果不好,你不知道是哪一步出了问题。

更好的做法是拆成三步:

  • 第一步:提取客户的关键问题
  • 第二步:基于这些问题起草一个回复大纲
  • 第三步:基于大纲写出完整回复

每一步独立运行,独立测试。

哪一步效果差,就优化哪一步。

三种方法:

  • 手动A/B测试:人工对比不同版本
  • 自动化平台:比如PromptFoo,同时跑5个模型对比
  • LLM评委:用另一个AI来给结果打分。可以是"两个结果选哪个好",也可以是"按1-5分打分",还可以给一个详细的评分标准


微调就是拿你自己的数据去调整模型参数。听起来很美好,但讲师给了三个理由让你三思:

:one: 需要大量标注数据,成本高、耗时长

:two: 容易过拟合,模型在你的任务上变好了,但在其他事情上变傻了

:three: 最扎心的一点:等你花几个月微调完,新一代基础模型发布了,性能直接超过你的微调版

讲师讲了一个很搞笑的反面教材。

有个人拿公司Slack聊天记录去微调模型,想让模型像同事一样工作。

结果让模型写博客,模型回:“我明天早上再做。”

催它,它说:“我正在写,现在才早上6点半。”

模型学会了人的摸鱼行为,而不是工作能力。

什么时候微调仍然有用?

只有两种场景:任务需要反复高精度输出(比如法律文书),或者通用模型确实搞不定你的领域语言。


RAG是Retrieval-Augmented Generation的缩写,翻译过来就是"检索增强生成"。

这是目前最常见的AI面试题之一。

它解决的问题很直接:

  • :white_check_mark: 上下文不够?接外部文档库
  • :white_check_mark: 知识过时?文档库可以随时更新
  • :white_check_mark: 会产生幻觉?基于文档回答,有据可查
  • :white_check_mark: 没有来源?可以标注到具体页码和章节

想象你有一堆公司文档。RAG做的事情分三步:

第一步,建库。

把所有文档转化成一种叫"向量"的数字表示,存到一个专门的向量数据库里。

你可以理解为,把每份文档压缩成一个"指纹"。

第二步,检索。

用户问了一个问题,这个问题也被转成"指纹",然后去数据库里找最像的文档。

就像你在搜索引擎里搜东西一样。

第三步,生成。

把找到的相关文档和用户的问题一起丢给AI,AI基于这些文档来回答,还能告诉你答案来自哪份文档的哪一页。

分块(Chunking):

一份100页的文档,整体做一个"指纹",细节肯定丢失。

更好的做法是同时存整份文档和每个章节的"指纹",检索时能精确到章节。

HyDE(假设文档嵌入):

这个方法特别巧妙。

用户的问题通常很短,比如"药物X的副作用是什么?"但文档是长长的说明书。

短句和长文在向量空间里距离很远,不容易匹配上。

怎么办?

先让AI根据用户的问题编一份"假回答",虽然内容可能不准,但格式和长度跟真正的文档很像。

然后用这份假文档的"指纹"去搜,就容易匹配到真正的文档了。


前面讲的Prompt、RAG,本质上都是"你问一句,AI答一句"。

但真实的工作场景远比这复杂。

举个例子:用户问"我可以退款吗?"

普通AI(带RAG)的回答:

“根据退款政策,购买后30天内可以退款。”

完事了。

智能体AI的做法:

检索退款政策 → 追问"你的订单号是多少?" → 查API核实订单状态 → 确认"你的订单符合退款条件,金额将在3-5个工作日内到账。"

你会发现,第二种方式更像一个真正的客服在帮你处理问题。

这就是智能体工作流的价值。

四个核心组件:

1. 提示词 —— 经过精心优化的指令模板

2. 记忆系统 —— 分两种:

  • 工作记忆:每次对话都要用的信息,比如你的名字。必须秒级响应
  • 归档记忆:偶尔才用的信息,比如你的生日。可以慢一点

为什么这么分?

因为每次AI跟你说话,都要先读一遍记忆。如果读记忆要3秒,你每句话都要等3秒,体验就很差。

3. 工具 —— API调用、数据库查询、代码执行、网页搜索

4. 资源 —— CRM数据、文档库等外部数据源

你可能听过MCP(Model Context Protocol),是Anthropic提出的标准协议。

传统方式:每个API你都要手动教AI怎么调用,写文档、配参数,一个一个来。

MCP方式:相当于给AI和外部服务之间建了一个"标准接口"。AI可以自己去跟服务"谈判",搞清楚对方需要什么信息、能提供什么数据。扩展性好很多。

讲师特别强调了一点:构建AI系统的思维方式跟传统软件完全不同。

实战建议:先搞定确定性的部分,再处理模糊的部分,并且给模糊的部分加上护栏。

麦肯锡研究了一家金融机构写信用风险备忘录的流程:

改造前: 关系经理从15+数据源收集信息 → 跟分析师协作 → 分析师花20+小时写备忘录 → 反复修改 → 1-4周完成

改造后: 关系经理+AI智能体 → 智能体自动分解任务、采集数据、起草备忘录 → 人工审阅反馈 → 时间减少20-60%

但讲师说了一句很实在的话:技术改造容易,改变人的行为才是最难的。 大概率需要10-20年才能在大企业里真正落地。


这部分是整堂课最实战的内容。

假设你要构建一个客户支持AI。讲师说,第一步不是写代码,而是跟一个真人客服坐一天,看ta怎么工作。

观察完你会发现,客服的工作可以分解成这几步:

用户输入 → 提取信息 → 查数据库 → 检查政策 → 起草回复 → 发送邮件

然后你给每一步选技术:

  • 提取信息 → 普通LLM就够
  • 查数据库 → 需要工具/API
  • 起草回复 → LLM + 确认信息
  • 发邮件 → API调用

前提条件:必须有LLM Traces(追踪记录)。

讲师说,如果你去面试AI创业公司,一定要问"你们有LLM追踪吗?"

没有追踪,就没法调试,等于在黑箱里摸鱼。

评估分四个维度:

实操流程是这样的:

  1. 先手动看20个案例。

你可能一眼就发现,AI回复太粗鲁了

  1. 设计一个评估指标。

比如让LLM评委按照"礼貌度评分标准"来打分

  1. A/B测试。

换个模型试试?或者改一下Prompt?

  1. 量化对比,选最优方案

然后不断循环。

这就是为什么Eval不是事后补的,而是系统设计的一部分。


你可能会问,一个智能体不就够了吗?为什么要搞多个?

三个理由:

:one: 并行化 —— 多个独立任务同时跑,快

:two: 可复用 —— 一个设计Agent,营销团队能用,产品团队也能用

:three: 好调试 —— 调一个专门的Agent,比调整个系统容易得多

学生们设计了一套智能家居AI系统:

  • 运动追踪Agent:知道你在家的哪个位置
  • 温控Agent:调节每个房间的温度
  • 能源管理Agent:追踪能耗效率
  • 安全Agent:管门禁,不同家庭成员有不同权限
  • 环境Agent:接天气API,自动控制百叶窗
  • 食材Agent:监控冰箱存货,自动在电商下单补货
  • 编排Agent:你跟这一个Agent说话,它帮你调度其他所有Agent

三种模式:

  • 扁平式:所有Agent互相连接,适合需要大量直接通信的场景
  • 层级式:一个编排者统一调度,用户只跟编排者说话
  • 混合式:大部分走编排者,但温控和能源Agent可以直接对话

Agent之间的通信,本质上就是MCP协议。你把一个Agent当工具来调用,告诉它"你能做什么、需要什么信息"就行了。


讲师分享了5个趋势,值得停下来想一想:

大概率会。

但突破口在于架构搜索

想想看,Transformer的发明改变了整个AI的方向。

下一个"Transformer级别"的架构突破,可能会把计算需求降低10倍。

所以那些AI实验室疯狂招人,赌的就是这个。

一个有意思的发现:

AI懂了图片之后,文字也变好了。再加上音频、视频,全面变强。

讲师用了一个很形象的类比:

如果AI知道猫叫声是什么样的,又知道猫长什么样,那它写关于猫的文章也会更好,甚至未来机器人躲猫也更灵活。

所有模态互相增强。

讲师拿婴儿学习做类比:

  • DNA里编码的本能 = 元学习/预训练
  • 父母指着说"好的、坏的" = 监督学习
  • 摔倒了感觉疼 = 强化学习
  • 观察其他人怎么做 = 无监督学习

未来的AI大概率是这些方法的融合体。

这是讲师特别强调的一点,也是这门课的设计理念:教广度,不教深度细节。

今天你学的RAG第17种优化方法,2年后大概率已经过时了。

正确策略是:先有宽基础,需要的时候再按需深挖。


按优先级排序:

:one: Prompt工程是第一道防线,投入小、产出大,先把这个做好

:two: 提示链 > 单步Prompt,关键在于可调试性

:three: 尽量别做微调,除非你有极强的领域需求,否则下一代模型直接超过你

:four: RAG是知识增强的标配,但要选对分块和检索策略

:five: 构建智能体的第一步是任务分解,先跟真人坐一天

:six: Eval不是事后补课,是系统设计的一部分

:seven: 多Agent的核心价值是并行和复用,不是为了酷

:eight: 确定性和模糊性分开处理,先把确定性的搞定,再给模糊的加护栏



原始视频:https://youtu.be/k1njvbBmfsw

小讯
上一篇 2026-04-14 09:40
下一篇 2026-04-14 09:38

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/261451.html