照片类型知识构建及问答工作流操作实践

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

一、课程优势

本课程有陈敬雷老师的清华大学出版社配套新书教材《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）。

新书配合此实战课程结合学习，一静一动，互补高效学习！

本课程由互联网一线知名大牛陈敬雷老师全程亲自授课，技术前沿热门，是真正的互联网工业级实战项目。

3微信图片_20250523160229.jpg

二、课程简介

课程核心亮点：从根源到前沿，锻造硬核 AI 技能

课程模块详解：体系化学习，收获明确

聚焦文档知识库构建核心需求，深度结合Coze 平台实操，从知识结构化存储底层逻辑讲起，涵盖文档分类标签体系设计、多格式内容接入（文本/表格/附件）技术，手把手教你配置智能检索策略（关键词

语义联想）。1 小时掌握企业级知识沉淀方案，解决信息分散、检索低效痛点，让文档管理从 “无序堆积” 到 “AI 驱动的智能知识库”，适配办公协同、客服知识中台等场景，学完即可落地实操，快速打造专属知识资产库！

2. RAG核心技术和实操演示，智能客服、办公助手、知识库对话工作流搭建实操课
围绕文生视频创作需求，系统讲解Coze 平台核心功能：从文本脚本解析（情节分镜 + 节奏设计）、素材生成策略（文生图 + 音频匹配），到视频渲染合成（转场特效 + 动态字幕）。融入AI 剪辑技巧（智能镜头选择、多轨音频混音），实操短视频、产品演示、知识科普内容制作，解决 “剪辑门槛高、内容产出慢” 痛点。无需专业剪辑经验，1 小时掌握文字→动态视频全流程，适配自媒体人、营销人员、教育创作者需求，让你在短视频赛道 “用 AI 降维打击”，快速产出爆款动态内容！

权威性与实用性兼具：作者陈敬雷深耕 AI 领域多年，课程内容基于《GPT 多模态大模型与 AI Agent 智能体》一书，结合京东图书配套视频，理论与实践深度结合。

理论与实战紧密融合：每个知识点都配套代码实践，从原理理解到动手操作无缝衔接，避免 “纸上谈兵”，学完就能上手应用。

内容全面且聚焦核心：覆盖大模型技术全链条关键内容，不冗余、不零散，直击技术核心，让学习更高效。

紧跟 AI 应用落地浪潮：聚焦扣子 Coze 平台核心操作，深耕 RAG 知识库构建、AI Agent 智能体搭建、多模态工作流设计、Agent智能体自主规划及工作流开发、多智能体协作等实操热点，拆解平台最新功能与应用逻辑，确保所学直接对接 Coze 实操场景，贴合用智能体落地 AI 应用的行业需求。

三、老师介绍
陈敬雷充电了么创始人，CEO兼CTO
陈敬雷，北京充电了么科技有限公司创始人，CEO兼CTO，十几年互联网从业经验，曾就职于用友网络、中软集团、凡客诚品、唯品会、猎聘、人民日报(灵思云途)、北京万朝科技，曾任架构师、首席技术官、首席科学家等职务，对业务领域B端、C端、电商、职场社交招聘、内容文娱、营销行业都有着丰富的经验，在技术领域，尤其在大数据和人工智能方向有丰富的算法工程落地实战经验，其中在猎聘任职期间主导的推荐算法系统项目获得公司优秀项目奖，推荐效果得到5倍的提升。
此外，陈敬雷著有清华大学出版社四本人工智能书籍，分别是《分布式机器学习实战》《自然语言处理原理与实战》《GPT多模态大模型与AI

Agent智能体》《DeepSeek大模型与具身智能实践》，颇受好评。同时陈敬雷还是知名大数据人工智能讲师，研发了上百门课程，总计有30万学员。

四、《GPT多模态大模型与AI Agent智能体》书籍配套视频课程介绍：

全书共8章，从大模型技术原理切入，逐步深入大模型训练及微调，还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI

Agent智能体，从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面，本书提供了丰富的案例分析，如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人，以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用，也为读者提供了宝贵的实践经验。

本书适合对大模型、多模态技术及AI

Agent感兴趣的读者阅读，也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统，既有理论知识的深入讲解，也有大量的实践案例和代码示例，能够帮助学生在掌握理论知识的同时，培养实际操作能力和解决问题的能力。通过阅读本书，读者将能够更好地理解大模型技术的前沿发展，并将其应用于实际工作中，推动人工智能技术的进步和创新。

五、配套书籍目录：

第1章大模型技术原理

1．1 大模型技术的起源、思想

1．2 基于Transformer的预训练语言模型

1．2．1 编码预训练语言模型

1．2．2 解码预训练语言模型

1．2．3 基于编解码架构的预训练语言模型

1．3 提示学习与指令微调

1．3．1 提示学习

1．3．2 指令微调

1．4 人类反馈强化学习

1．4．1 强化学习

1．4．2 PPO算法

1．4．3 大模型人类反馈强化学习对齐

1．5 GPT智能涌现原理与AGI通用人工智能

1．5．1 什么是智能涌现

1．5．2 思维链

1．5．3 上下文学习能力

1．5．4 指令理解

1．5．5 通用人工智能

第2章大模型训练及微调

2．1 大模型训练概述

2．2 分布式训练的并行策略

2．2．1 数据并行

2．2．2 模型并行

2．2．3 混合并行

2．2．4 并行计算框架

2．3 预训练模型的压缩

2．3．1 模型压缩方案概述

2．3．2 结构化模型压缩策略

2．3．3 非结构化模型压缩策略

2．3．4 8位/4位量化压缩实战

2．4 大模型微调方法

2．4．1 Prefix Tuning微调

2．4．2 P-Tuning V1微调

2．4．3 P-Tuning V2微调

2．4．4 LoRA微调

2．4．5 QLoRA微调

2．5 基于旋转位置编码RoPE的长文本理解

2．5．1 RoPE技术原理

2．5．2 RoPE关键特性

第3章主流大模型

3．1 国内大模型

3．1．1 智谱清言ChatGLM

3．1．2 百川智能

3．1．3 百度文心一言

3．1．4 阿里巴巴通义千问

3．1．5 腾讯混元

3．1．6 华为盘古

3．1．7 360智脑

3．1．8 科大讯飞星火

3．1．9 智源悟道大模型

3．1．10 月之暗面Kimi

3．1．11 复旦大学MOSS

3．1．12 零一万物

3．1．13 字节跳动豆包大模型

3．2 国外大模型

3．2．1 OpenAI GPT-4o

3．2．2 Meta LLaMA

3．2．3 Anthropic Claude

3．2．4 谷歌Gemini和开源Gemma

3．2．5 Mistral Large

3．2．6 xAI Grok

3．3 垂直类大模型

3．3．1 HuatuoGPT

3．3．2 BianQue

3．3．3 BenTsao

3．3．4 XrayGLM

3．3．5 DoctorGLM

3．3．6 ChatMed

3．3．7 度小满轩辕

3．3．8 BloombergGPT

3．3．9 LawGPT

3．3．10 LexiLaw

3．3．11 Lawyer LLaMA

3．3．12 ChatLaw

3．3．13 ChatGLM-Math

第4章 LangChain技术原理与实践

4．1 LangChain技术原理

4．2 LangChain六大核心模块

4．2．1 模型I/O

4．2．2 数据增强模块

4．2．3 链模块

4．2．4 记忆模块

4．2．5 Agent模块

4．2．6 回调处理器

第5章 RAG检索增强生成

5．1 RAG技术原理

5．1．1 RAG的概念与应用

5．1．2 RAG技术架构

5．1．3 分块和向量化

5．1．4 搜索索引

5．1．5 重新排序和过滤

5．1．6 查询转换与路由

5．1．7 RAG中的Agent智能体

5．1．8 响应合成器

5．1．9 大模型微调和RAG优劣势对比

5．2 文本向量模型

5．2．1 Embedding模型、Reranker模型及ColBERT模型

5．2．2 阿里巴巴GTE向量模型

5．2．3 中文acge_text_embedding模型

5．2．4 智源中英文语义向量模型BGE

5．2．5 Moka开源文本嵌入模型M3E

5．2．6 OpenAI的text-embedding模型

5．3 向量数据库

5．3．1 Faiss

5．3．2 Milvus

5．3．3 Pinecone

5．3．4 Chroma

5．4 RAG应用实践

5．4．1 基于大模型构建企业私有数据的知识问答

5．4．2 应对大模型落地挑战的优化策略

第6章多模态大模型

6．1 多模态基础模型

6．1．1 多模态对齐、融合和表示

6．1．2 CLIP

6．1．3 BLIP

6．1．4 BLIP-2

6．1．5 InstructBLIP和X-InstructBLIP

6．1．6 SAM

6．1．7 OpenFlamingo

6．1．8 VideoChat

6．1．9 PaLM-E

6．2 OpenAI多模态大模型DALL·E 3、GPT-4V、GPT-4o、Sora

6．2．1 文生图多模态大模型DALL·E 3

6．2．2 GPT-4V

6．2．3 端到端训练多模态大模型GPT-4o技术原理

6．2．4 文生视频多模态大模型Sora

6．3 通义千问多模态大模型

6．3．1 开源Qwen-VL和Qwen-VL-Chat

6．3．2 Qwen-VL-Plus和Qwen-VL-Max

6．4 开源端到端训练多模态大模型LLaVA

6．4．1 LLaVA

6．4．2 LLaVA-1．5

6．4．3 LLaVA-1．6

6．4．4 MoE-LLaVA

6．4．5 LLaVA-Plus

6．4．6 Video-LLaVA和LLaVA-NeXT-Video

6．5 零一万物多模态大模型Yi-VL系列

6．5．1 Yi-VL系列模型架构

6．5．2 Yi-VL系列模型训练微调及推理

6．6 清华系多模态大模型

6．6．1 VisualGLM-6B

6．6．2 CogVLM2

6．6．3 CogAgent

6．6．4 CogView、CogVideo和CogVideoX

6．6．5 CogCoM

6．6．6 GLM-4V-9B

第7章 AI Agent智能体

7．1 AI Agent智能体介绍和原理

7．1．1 AI Agent的定义与角色

7．1．2 AI Agent技术原理

7．2 主流大模型Agent框架

7．2．1 AutoGPT

7．2．2 MetaGPT

7．2．3 ChatDev

7．2．4 AutoGen

7．2．5 FastGPT

7．2．6 XAgent

7．2．7 GPT-Engineer

7．2．8 BabyAGI

7．2．9 SuperAGI

第8章大模型在企业应用中落地

8．1 基于大模型的对话式推荐系统

8．1．1 基于大模型的对话式推荐系统技术架构设计

8．1．2 推荐AI Agent智能体

8．1．3 面向推荐的语言表达模型

8．1．4 知识插件

8．1．5 基于大模型的推荐解释

8．1．6 对话式推荐系统的新型评测方法

8．2 多模态搜索

8．2．1 多模态搜索技术架构设计

8．2．2 多模态搜索关键技术

8．2．3 多模态实时搜索与个性化推荐

8．3 基于自然语言交互的NL2SQL数据即席查询

8．3．1 NL2SQL数据即席查询技术原理

8．3．2 NL2SQL应用实践

8．4 基于大模型的智能客服对话机器人

8．4．1 大模型智能客服对话机器人技术原理

8．4．2 AI大模型赋能提升智能客服解决率新策略

8．4．3 基于大模型的智能客服对话机器人系统搭建

8．5 多模态数字人

8．5．1 多模态数字人技术原理

8．5．2 三维建模与三维重建

8．5．3 数字人形象设计

8．5．4 唇形同步算法

8．5．5 NeRF、ER-NeRF与RAD-NeRF模型

8．5．6 数字人项目实践

8．6 多模态具身智能

8．6．1 多模态具身智能概念及技术路线

8．6．2 多模态感知与场景理解

8．6．3 视觉导航

8．6．4 世界模型

8．6．5 具身智能模拟器

8．6．6 多模态多感官交互具身智能大模型

8．6．7 端到端强化学习人形机器人

8．6．8 多模态通才具身智能体

照片类型知识构建及问答工作流操作实践

相关推荐