多模态Agent应用开发：从朴素RAG框架到企业级应用

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

 随着人工智能技术的飞速发展，多模态Agent应用开发已成为当下行业关注的焦点。在实际落地过程中，如何有效构建和优化这些应用，以满足日益增长的复杂需求，是当前企业和开发者面临的重要挑战。

基于这样的大背景，本次邀请到商汤大装置研发总监王志宏从技术视角进行构建方式的详细介绍，从最初简单的朴素RAG框架，到如今能够支持图片、视频、音频等多种媒体形式的多模态RAG框架，再到满足企业级复杂需求的企业级RAG架构。本文将深入探讨这些技术的发展历程和关键要点，为读者提供清晰的指导和见解。

朴素RAG框架及其局限性

RAG（Retrieval-Augmented Generation，检索增强生成）作为一种重要的技术架构，在人工智能领域有着广泛的应用。其最基础的形式，即朴素RAG框架，为我们理解这一技术的原理和发展提供了重要的起点。

图1 朴素RAG框架

（一）朴素RAG框架的原理

朴素RAG框架的核心在于检索增强生成，其工作流程可概括为以下几个关键步骤：

1.知识库构建：知识库是朴素RAG框架的基石，它存储了海量的文档信息。这些文档可以是各种类型的知识资源，如学术论文、新闻报道、企业内部资料等。知识库的主要作用是从这些海量文档中检索出与用户输入问题相关的片段。与直接使用单篇文档进行问答的方式相比，知识库的优势在于能够处理大量文档。当文档数量较少时，直接将文档解析后作为上下文提供给大模型即可。然而，当文档数量达到成千上万篇甚至几十万篇时，将所有文档直接提供给大模型是不现实的。因此，知识库通过检索相关片段的方式，有效地解决了这一问题。

2.文档预处理：在知识库构建过程中，文档需要经过一系列预处理步骤。首先，文档需要被读取并转化为计算机能够识别的格式。然后，对文档进行解析，包括切片、总结、提取关键词等操作。这些解析操作的目的是为了让召回器能够更准确地召回与用户问题相关的片段。例如，通过提取关键词，召回器可以快速定位到包含这些关键词的文档片段，从而提高检索的效率和准确性。解析后的文档片段会被存储在数据库中，实现私有化存储，以便后续的检索和使用。

3.在线检索与输出：当用户提出一个问题时，系统进入在线阶段。根据一定的策略，系统从知识库中检索到与用户问题相关的片段。这些片段与用户的问题一起被打包，作为上下文提供给大模型。大模型根据这些上下文信息生成相应的回答。这一过程实现了用户问题与知识库中知识的有效结合，使得回答能够基于更广泛的知识背景。

（二）朴素RAG框架的局限性

尽管朴素RAG框架能够实现基本的知识检索和生成功能，但它也存在一些明显的局限性。其中最突出的问题是它无法支持图片的输入和输出。在当今数字化时代，信息的呈现形式越来越多样化，图片作为一种重要的信息载体，在许多应用场景中都发挥着关键作用。然而，朴素RAG框架仅能处理文本信息，对于包含图片的文档，它无法进行有效的处理和理解。例如，当文档中包含图表、图像等视觉元素时，朴素RAG框架无法识别和利用这些元素来生成更丰富、更准确的回答。这一局限性限制了RAG技术在多模态应用中的发展，也使得它在一些需要处理视觉信息的场景中无法充分发挥作用。

朴素RAG框架作为RAG技术的基础形式，虽然在知识检索和生成方面具有一定的优势，但其对图片输入输出的支持不足，使其在多模态应用中的局限性逐渐凸显。这促使研究人员和开发者不断探索更先进的框架，以克服这一局限性，实现更广泛的应用场景。

多模态RAG框架的构建与拓展

在探讨多模态Agent应用开发的过程中，多模态RAG框架的出现标志着技术架构的一次重大升级，它在传统RAG框架的基础上，通过增强对图片等多媒体数据的处理能力，极大地拓展了应用的边界，为更丰富、更智能的人工智能应用奠定了基础。

图2 多模态RAG框架

（一）多模态RAG框架的图片处理能力

多模态Agent架构相较于传统Agent架构，最显著的升级在于对图片处理能力的强化。在文档解析过程中，当文档中包含图片时，文档解析器需要能够准确地解析这些图片，并将文本和图片分别进行处理。具体而言，文本和图片分别进行向量化处理，即将文本转化为文本向量，图片转化为图片向量。图片向量的生成有两种方式：一种是直接使用支持图片向量的向量模型，对文字和图片进行统一编码，或者分别编码后再映射到同一个向量空间；另一种方式是先将图片转换为文本，通过一些视觉问答（VQA）模型或视觉语言模型（VL VLM），提取图片的关键词，尽可能全面地描述图片内容，然后将这些文本描述进行向量空间映射。通过这种方式，多模态RAG框架能够有效地处理文档中的图片，无论是用户提出纯文本问题还是图文并茂的问题，都可以利用相同的向量模型对问题进行向量化，并在向量库中匹配相关片段。

（二）多模态RAG框架对视频与音频的支持

除了图片，多模态RAG框架还能够支持视频与音频的处理。对于音频，由于存在许多小模型可以进行语音转文字或文字转语音的工作，因此音频通常会先被转换为文字，然后再输入到模型中。而对于视频，由于其数据量较大，直接处理较为复杂，常用的做法是先对视频进行抽帧，即将视频中的每一帧提取出来作为图片。例如，对于一个60分钟的视频，每秒可能有30帧，通过抽帧策略，如每秒抽取3张图片，或者在视频内容发生重大变化时抽取一帧等，将视频转换为一系列图片，这些图片就可以被纳入多模态RAG框架中进行处理。这种对多媒体数据的支持，使得多模态RAG框架能够处理更加丰富多样的文档形式，为更广泛的应用场景提供了可能。

（三）多模态RAG框架在宏观问题处理上的挑战与解决方案

尽管多模态RAG框架在处理多媒体数据方面具有显著优势，但在面对一些宏观问题时，传统的RAG架构仍存在一定的局限性。例如，当用户询问2005年关于Agent的论文数量，或者2005年Agent领域讨论最多的话题等问题时，传统的RAG知识库仅能根据用户的输入在文本库中召回相似的片段，而无法将所有相关的内容全部检索出来。这是因为传统的RAG通常会设置一个最大召回数量，一般为6到12篇，这使得在面对需要全面统计的问题时，无法满足需求。

为了解决这一问题，多模态RAG框架在RAG的基础上引入了Agent。这个Agent可以将RAG知识库中每篇文章的关键信息写入数据库，如作者、发布年代、主题、亮点等。然后，通过让大模型执行SQL调用，将用户的自然语言问题转换为SQL语句，并执行这些语句以获取统计结果。如果SQL语句执行成功，大模型会将结果返回并进行总结输出；如果执行失败，则会根据错误信息重新生成SQL语句并再次尝试，直到生成正确的SQL语句并成功执行。此外，入口处还设置了一个意图识别模块，用于判断用户的输入是简单的知识库问答还是复杂的需要深入分析的问题。根据用户的意图，Agent会将问题导向不同的模块进行具体任务的执行，最终给出让用户满意的答案。这种带有Chat BI（聊天式商业智能）能力的知识库，能够支持更复杂的查询和统计分析，为用户提供更全面、更深入的信息支持。

企业级RAG的实现与优化

在前两部分中，我们详细探讨了朴素RAG框架及其局限性，以及多模态RAG框架的构建与拓展。这些内容主要集中在算法架构的设计和功能实现上。然而，在实际的企业级应用中，仅仅具备强大的算法架构是不够的。为了满足工业生产的需求，还需要考虑系统的高并发处理能力以及复杂的用户权限体系。接下来，我们将深入探讨如何实现企业级RAG，使其能够支持大规模的工业生产。

（一）企业级RAG的架构设计

在企业级应用中，算法框架往往不能直接支持高并发和复杂的用户权限体系。因此，我们需要对系统进行封装和优化，以满足这些需求。面对企业复杂的权限需求，通常的做法是将后端的鉴权和算法支持进行分离。具体而言，算法本身应该是无状态的，这意味着它能够根据用户自定义的标签进行精细粒度的检索。而鉴权则在后端进行，后端会检查用户的身份信息，并为其打上详细的标签，然后将这些标签传递给算法，以便算法进行无状态查询。这种分离的方式使得算法可以专注于数据处理，而鉴权则由后端系统负责，从而提高了系统的灵活性和可扩展性。

图3 企业级RAG：高并发支持

（二）并发支持的实现

为了使RAG或Agentic RAG能够支持较好的并发性能，我们需要将每个模块都服务化。以下是具体的实现步骤：

1.存储服务化：存储和文件管理是算法和离线解析共同访问的资源。为了方便对文件的管理，可以通过Joyce FS将Mini IO起的对象存储和文件存储映射到同一个空间。这样，无论是算法模块还是离线解析模块，都可以方便地访问和管理文件资源。

2.模块服务化：将所有用到的模块都打成独立的服务。例如，文本解析可以作为一个独立的服务，如果使用Mini U进行解析，则将其封装为一个解析服务；向量模型、大模型（如NewVAS）也分别封装为独立的服务。NewVAS的服务包括离线的入库和在线召回，它们可以共用一个服务。此外，还可以将离线处理和在线处理分别封装为独立的服务。

3.微服务架构：通过网关将所有服务连接起来，形成一个简单的微服务架构。每个服务都保证自己的并发量，从而确保整个系统的并发性能。在这种架构下，每个服务可以独立扩展，根据实际需求调整资源分配，从而提高系统的整体性能和可扩展性。

图4 企业级RAG：高并发支持

（三）企业级RAG的优化与封装

在企业级应用中，为了满足高并发和复杂权限体系的需求，对RAG框架的优化和封装至关重要。通过将后端鉴权和算法支持分离，以及将每个模块服务化，可以实现一个灵活、可扩展且性能优越的企业级RAG系统。这种系统不仅能够支持大规模的工业生产，还能够根据不同的用户需求和权限进行个性化的服务。通过这种方式，企业可以充分利用RAG技术的强大功能，同时确保系统的稳定性和安全性。

从0到1！大模型(LLM)最全学习路线图，建议收藏！

想入门大模型(LLM)却不知道从哪开始? 我根据最新的技术栈和我自己的经历&理解，帮大家整理了一份LLM学习路线图，涵盖从理论基础到落地应用的全流程!拒绝焦虑，按图索骥~~

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

多模态Agent应用开发：从朴素RAG框架到企业级应用

相关推荐