下一件大事?Gartner 认为:AI 智能体(AI Agents)将是未来的关键技术。OpenAI、Nvidia 和 Microsoft 正在大力投入,甚至像 Salesforce 这样在 AI 领域一向低调的公司,也已悄然下注。
而毫无疑问,这项技术目前正迅猛崛起。
那么,这一趋势背后真正的是什么?理解智能体(Agents)的关键在于:自主性(Agency)。
不同于传统的生成式 AI 系统,智能体不仅仅是对用户输入做出回应。它们能够处理一个完整且复杂的问题——例如,一起保险理赔案件——从头到尾自动完成。这意味着它们可以理解理赔中的文本、图片与 PDF;从客户数据库中检索相关信息;将案例与保险条款进行比对;主动向客户提问并等待回应——哪怕这个过程需要几天;且不会遗忘上下文。
最重要的是:这些智能体可以自主完成所有操作,无需人类检查其处理过程是否正确。
与当前市面上的 AI 系统以及各类“协助型 Copilot”不同,AI 智能体实际上更像是一位真正的“员工”,而不是仅仅帮助员工完成部分工作的工具。它们展现出在流程自动化方面的巨大潜力。
想象一下 —— 一个能够完成复杂、多步骤任务的 AI,原本这些任务需要一个人类员工甚至是一个完整部门来完成:
•策划、设计、执行、评估并优化一场市场营销活动•在物流中定位遗失的货物,通过与承运商、客户和仓库沟通协调——若最终无法找回,还能向责任方提出索赔•每日检索商标数据库,判断是否有新注册商标与自己的商标存在冲突,并立即提出异议•收集 ESG 报告所需数据,包括询问员工、验证数据并最终撰写完整报告
目前,AI 模型可以协助处理某些环节,例如生成营销内容、分析电子邮件等,但它们尚不具备执行完整业务流程的能力。而 AI 智能体(AI Agent)可以做到这一点 —— 它不仅“协助”,还可以“主导执行”。
虽然传统的 AI 模型就像一台顶级的意式咖啡机,但基于智能体的 AI,更像是一位咖啡师(Barista)。咖啡机能煮出好咖啡;而咖啡师不仅会煮咖啡,还能:欢迎客人,记下订单,端上咖啡 ,收银结账 ,清洗杯具 ,晚上关店。即便是世界上最好的咖啡机,也无法独立经营一家咖啡馆,但咖啡师可以。
为什么 AI 智能体和咖啡师能做到这些?因为他们擅长掌握复杂工作的各个子流程,并能够自主决定下一步要做什么。
他们能与人交流,比如:
•向顾客提问,以获取更多信息(需要牛奶还是燕麦奶?)•判断求助对象,在遇到问题时知道该找谁(咖啡豆没了 => 找老板;咖啡机** => 联系售后服务)
这正是 AI 智能体的优势,它不仅能执行任务,还能理解场景、做出判断、沟通协调、灵活应变 —— 像一个真正的“数字员工”。
我们将围绕上方图示中的保险业务流程,设计一个智能体系统。该智能体应能从理赔申请的发起一直处理到赔付完成。
⚠️ 在这里我们主要讨论业务架构和流程设计。由于涉及编码的部分非常庞大,本文暂不深入编程实现细节。
1. 分类 & 将任务分配到处理路径中
我们的工作流从客户向保险公司发送一条理赔消息开始,这通常是有关房屋保险的申请内容。
那么,智能体该怎么做?它首先要分析消息内容,判断客户的诉求是什么。
基于这一分类判断,系统会启动相应的处理路径(processing lane)。这一步往往不仅仅是函数调用[1],而是涉及到对整个流程的基本决策(例如属于哪一类理赔),后续触发多个独立的处理步骤。这就是智能体在流程第一步的职责,理解需求 → 分类判断 → 进入具体处理流。
2. 数据提取
下一步是数据提取。智能体的主要任务之一,就是将非结构化数据转化为结构化数据,以便流程更加系统化、安全且可控。
分类是将文本归入预定义的某一类;而提取,则是从文本中读取并解析具体的数据内容。然而,语言模型并不会直接“复制”输入中的数据,而是生成一条响应内容。这使得它能进行数据格式化,比如将电话号码从 ‘(718) 123–45678’ 转换为 ‘+1 718 123 45678’。
数据提取并不仅限于邮件正文中的文本内容,还可以包含图像、PDF 或其他文档中的数据。 为了完成这些任务,我们通常会结合多种模型使用:包括 LLM(大语言模型)、图像识别模型、OCR(光学字符识别)等。上文描述的流程其实是高度简化版。在现实中,我们通常会将图片发送给 OCR 系统,让它从扫描的发票或表单中提取文本;同时,我们也常常在分析前对附件进行分类处理。
为确保输出为结构化数据,我们强制要求模型的输出格式为 JSON。
以下是邮件输入的示例 —— 一段非结构化数据:
模型输出—JSON 格式的结构化数据
3. 调用外部服务,保持上下文持久化
许多生成式 AI 系统可以直接回答问题——有时是基于预训练数据,有时是通过微调,或在特定文档上使用 RAG(检索增强生成)技术。但这对智能体来说远远不够。几乎所有具备一定能力的 AI 智能体都必须访问企业内部或外部的数据源,如数据库等系统。
此外,为了使流程的上下文在当前会话之外仍然持续可用,智能体必须将数据写入系统或数据库。以我们的保险理赔智能体为例,它会根据合同号在客户数据库中查询客户信息,并将本次理赔请求的状态写入问题追踪系统(issue tracking system)。更进一步的是 —— 智能体具有“自主性(agency)”,它还可以主动向外部(例如客户)请求缺失的数据。
4. 评估、RAG、推理与置信度控制
每一项行政工作最核心的部分,其实都是在依据规则解释和处理输入的个案。而 AI 在这一点上表现得尤其出色。由于我们在调用模型时无法提供所有上下文信息(例如保险条款或服务协议内容),我们通常会使用向量数据库(vector database)来检索相关内容片段,这种技术被称为 RAG(检索增强生成)。
我们会在提示中引导 AI 先“自言自语”推理,再做出判断。这种“先思考、后回答”的方式可以显著提升回答质量—— 这正是我们从三年级数学课上就学会的技能。模型的推理过程,还可以被用于多种显性和隐性的场景,例如:
•向客户提供理由,说明为什么得出这样的答复•帮助提示工程师和数据科学家排查模型错误的原因•用于评估模型是否真的“理解了”问题,还是仅仅“碰巧猜对了”
🔍 我们还会准备一份关于推理与提示工程技巧的小抄[2],方便参考使用。
置信度评估是最大化系统精度的核心手段。如果模型可以估算自己的回答置信度,我们就能据此制定不同的系统运行策略。
📌 提示工程师注意:这通常需要为不同置信度水平提供优秀的 few-shot 学习示例。
我们可以设置一个“置信度阈值”:
•当低于该阈值时 → 自动将任务转交给人工客服•当高于该阈值时 → 系统自动处理该任务
这样可以实现灵活调节:
•置信度阈值设得高:更安全,错误率低,但需更多人工处理•置信度阈值设得低:自动化程度高,但潜在错误风险增加
哇哦!如果你刚才实现了上面所提到的 2 到 3 个步骤,那么你就已经构建出了一个 AI 智能体。我在前文中只列出了这些智能体系统的核心组成部分,其余部分你一定也可以轻松想象得到。你可以选择使用以下框架来实现它们: CrewAI, LangGraph, LangFlow,或其他类似的智能体编排工具。当然,你也完全可以只用纯 Python 实现整个流程。
令人惊讶的是,这样的系统可以自动化理赔部门 70%–90% 的工作量。而这一点,是传统的、非智能体型的生成式 AI 系统根本无法做到的。两年前,我从未想过这个愿景能来得这么快、这么现实。
👉 AI 智能体,简而言之:
一个能思考、有记忆、可调用工具,并能独立完成任务的“数字员工”。
山行AI祝你在 AI 和智能体系统的实践之路上一切顺利、收获满满!本文由笔者翻译整理自:https://medium.com/codex/what-are-ai-agents-your-step-by-step-guide-to-build-your-own-df54193e2de3,如对你有帮助,请帮忙点赞、转发,谢谢!
References
函数调用: https://platform.openai.com/docs/guides/function-calling 小抄: https://www.linkedin.com/pulse/perfect-prompt-engineering-cheat-sheet-snippets-part-vogel-mxkcf/?trackingId=ikeDZrOwQieHCRRwSIvx2w%3D%3D
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/238420.html