2026年用 AI 批量处理 B 站字幕：我的学习笔记自动化实践

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

1.1 B 站学习的普遍性

B 站已经从一个二次元视频平台，悄然变成了中国最大的”学习网站”。

无论是备考考研、软考、职业证书，还是学习编程、听深度思考类内容、追更技术教程，B 站上有大量优质的长视频内容。某种程度上，B 站已经取代了传统的在线课程平台——它内容免费、品类齐全、而且”野生”教程往往比官方课程更接地气。

1.2 字幕提取的便利

现在有很多浏览器插件可以一键提取 B 站视频的字幕，典型工具如「B站字幕提取」「BiliBili Subtitle Downloader」等。输入视频 BV 号，几十秒就能拿到一份完整的字幕文件。

这解决了一个基本问题：看得见了。

1.3 字幕的”可用性”问题

但真正用过的人都知道，原始字幕存在几个严重问题：

口语冗余：充斥着”那、嗯、啊、其实、就是、这样子的”等填充词
无结构：大量内容堆在一起，缺乏层级划分
识别错误：同音字错识别（如”移码”识别成”乙码”、“反码”识别成”砝码”）
难以复习：想回头查某个知识点，只能翻大量原始文本

传统解决方案是人工整理——边看视频边记笔记。但这对长视频尤其不友好：一门 30 小时的课程，人工整理可能需要 100+ 小时，效率极低。

痛点总结：看得见 → 用不起来 → 人工整理太慢

2.1 设计思路

要解决这个矛盾，核心思路是：让 AI 学会”整理”的规范，然后自动化执行。

具体来说，我们需要给 AI 两样东西：

角色设定：告诉它做什么（课程笔记整理助手）
格式规范：告诉它怎么做（结构模板、质量标准）

在 OpenClaw 体系中，这两样东西就构成一个 Skill。

2.2 Skill 详细拆解

我设计了一个名为 lecture-notes-organizer 的 Skill，专门用于将字幕文件整理为结构化笔记。

以下是 Skill 的核心构成：

（1）核心提示词设计

# 任务 你是一位专业的课程笔记整理助手，擅长将杂乱的语音转录文字整理为高质量的学习笔记。

输入文本特点

来源：课程视频字幕语音识别
问题：
- 口语化严重，包含大量语气词和口头禅（那、嗯、啊、其实、就是说、这样子等）
- 缺乏标点符号和语句边界
- 可能有语音识别错误（同音错字）
- 包含考频分析等元信息

处理要求

一、信息提取

识别并提取所有知识点、概念、定义
保留所有数字信息（分值、章节号、年份、考察频率等）
保留关键术语的准确名称

二、结构化输出

使用多级标题建立清晰的层级
相关内容归类到同一层级下
使用表格呈现对比信息
每个知识点独立成节，便于后续检索

三、语言精简

去除口语填充词：那、嗯、哦、啊、其实、就是说、这样子、可以看到等
简化冗余表达：
- “我们要求掌握…” → “掌握要求：…”
- “这样子的一个方式” → “该方式”
口语转书面语：保持专业、简洁、正式

四、语义修正

修正识别错误：根据上下文推断并修正同音错别字
- 例：「乙码」→「移码」、「砝码」→「反码」
  （2）格式规范模板
```
# X.X 章节名称
```
Skill 定义了标准化的输出格式：

> 本节概述：[一句话概括本节核心内容]

一、[知识点名称]

1. [子知识点]

核心概念：… 关键特性：… 掌握要求：…

二、[知识点名称]

…

N、习题演练

习题 1：…

习题 2：…

N+1、本节小结

核心要点

易错点

公式速查

N+2、关键术语

（3）常见识别错误对照表

为了保证专业术语的准确性，Skill 内置了对照表：

识别结果正确术语乙码移码砝码反码教育码校验码流水线流水线存取器存储器中独中断

（4）质量检查清单

处理完成后，AI 会对照清单自检：

2.3 AI 辅助 Skill 设计

你可能会问：这么完善的 Skill，是怎么设计出来的？

答案是：用 AI 辅助设计 AI 工具。

我的做法是：

先想清楚需求：我希望 AI 帮我做什么？输出格式是什么？
写第一版提示词：把基本要求丢给 AI，让它帮我扩充
发现问题 → 迭代：生成结果哪里不好？加规则、加例子、加对照表
固化到 Skill：确认效果OK后，把提示词封装成 Skill

本质上，这是一个 AI 渐进式提示工程：让 AI 帮你想细节，你来做决策和整合。

2.4 直接看字幕 vs 整理成笔记

对比维度原始字幕整理后笔记可读性口语冗余、语句松散简洁、结构化复习效率低，需要全文检索高，目录跳转+关键术语表知识留存浅，听完即忘深，结构化加强记忆时间成本 0（提取即用）几分钟（AI 处理）

核心差异：字幕是”信息的原始形态”，笔记是”知识的结构化表达”。

3.1 串行处理的局限

有了 Skill，单个文件处理已经非常高效。但当需要批量处理多个字幕文件时，传统方式会遇到以下问题：

速度慢：9 个文件串行处理，需要一个接一个等待完成
上下文限制：单个对话窗口有 token 上限，文件太多会溢出
相互干扰：不同文件的内容可能在 AI 记忆中被混淆

3.2 子代理方案设计

OpenClaw 的 sessions_spawn 功能可以启动独立的子代理，每个子代理有独立的上下文、互不干扰。

我的批量处理流程：

┌─────────────┐ │ 主会话 │ │ (调度中心) │ └──────┬──────┘

 │ sessions_spawn ▼

┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ 子代理 1 │ │ 子代理 2 │ │ 子代理 3 │ │ 处理文件 09 │ │ 处理文件 10 │ │ 处理文件 11 │ ……… └──────┬──────┘ └──────┬──────┘ └──────┬──────┘

 │ │ │ ▼ ▼ ▼

09_xxx.md 10_xxx.md 11_xxx.md

每个子代理执行相同的任务模板：

读取源文件
应用 lecture-notes-organizer skill
输出到目标目录

3.3 实战：9 个字幕文件并行处理

在正式介绍之前，先说明一下项目的完整规模：本文中展示的 9 个字幕文件（09-17）只是整个笔记体系的一部分。整个 E:学习资料库AA嵌入式相关AA2026软考笔记 目录下，从 00_报考指南 到 17_多媒体基础知识，共 18 篇结构化学习笔记，全部使用本方法整理而成。涵盖了软考嵌入式系统设计师考试的完整知识体系。

这次实战中，我需要处理 9 个软考相关字幕文件：

序号文件名原始字幕输出笔记字符估算 09 数据结构与算法 112KB 13.4KB 约 13,400 字符 10 数字电路基础 89KB 9.8KB 约 9,800 字符 11 嵌入式微控制器基础 91KB 10.6KB 约 10,600 字符 12 嵌入式系统存储体系 45KB 8.5KB 约 8,500 字符 13 嵌入式系统输入输出设备 48KB 8.2KB 约 8,200 字符 14 嵌入式系统总线与接口 127KB 12.5KB 约 12,500 字符 15 嵌入式硬件设计 59KB 10.1KB 约 10,100 字符 16 知识产权与标准化 48KB 10.2KB 约 10,200 字符 17 多媒体基础知识 21KB 5.7KB 约 5,700 字符

注：原始字幕字符数约等于文件大小（KB×1024），输出笔记为实际 Markdown 文件大小。

执行结果：

由于并发限制，每次最多启动 5 个子代理
9 个文件分两批处理
总耗时约 5 分钟，全部完成

3.4 如何保证质量

子代理方案的质量保障：

独立上下文：每个子代理只处理单个文件，不会相互污染
标准化任务模板：所有子代理收到相同的指令，确保输出格式一致
Skill 规范约束：格式、内容质量由 Skill 本身保证
可追溯：每个子代理的运行日志可查，问题可定位

4.1 量化对比

本章对比的是：单上下文窗口串行处理 与 子代理并行处理 两种方案的效果。

文件串行处理（旧）子代理并行（新）增量 09_数据结构与算法 5.9KB 13.4KB +127% 10_数字电路基础 2.4KB 9.8KB +308% 11_嵌入式微控制器 1.9KB 10.6KB +447% 14_总线与接口 4.5KB 12.5KB +178% 总计 33.8KB 89.0KB +164%

4.2 质量对比示例

以「数据结构与算法」章节为例，对比两种方案产出的笔记质量：

维度串行处理（旧）子代理并行（新）章节数 8 章 11 章（+广义表、串、B+树、AVL树）题目解析无有选择题解析+详细解题步骤公式推导仅结论详细推导+例题小结表格要点核心要点+易错点+公式速查术语表简要中英对照

结论：子代理并行方案产出的笔记内容更丰富、更结构化、更适合备考复习。

5.1 方法论总结

这次实践验证了一条可复用的文档处理流水线：

Skill（规范） + 子代理（并行） = 批量文档处理工厂

Skill：定义”怎么做”，确保输出质量
子代理：定义”谁来做”，实现并行处理
组合效果：高效 + 高质 + 可扩展

5.2 更多应用场景

这个方法不局限于软考：

考研备考：政治、专业课背诵笔记
职业考证：PMP、法考、CPA 等
技术学习：编程语言、框架、系统的长教程
深度内容：好文、访谈、纪录片要点提取
任何需要”从长文本中提取结构化知识”的场景

本质上，这是一个“AI 辅助知识管理”的工作流：原始内容 → AI 整理 → 结构化笔记 → 便于复习。

5.3 延伸可能性

工作流自动化：配合定时任务cron，实现”字幕提取 → 自动整理 → 推送通知”全自动
多模态输入：不仅处理字幕，还可以处理 PDF、网页、音频转文字等
个性化定制：根据不同领域定制不同的 Skill（法律、医疗、技术等）
知识库集成：整理后的笔记直接存入 Obsidian/Notion，形成个人知识库

5.4 一点心里话

写这篇文章，不是为了”秀肌肉”，而是真心觉得：AI 与人的协作，还有太多可能性没有被探索。

我只是把自己的一小点实践经验分享出来。如果你也有类似的困惑或尝试，欢迎交流。

AI 不是替代我们思考的工具，而是放大我们能力的杠杆。

本文由 AI 辅助编写，实战案例基于软考嵌入式系统设计师备考笔记整理。

核心 AI 平台

项目说明 交互界面 智谱 AutoClaw 内核 OpenClaw（个人 AI 工作流平台） 后端模型 百度千帆 Coding Plan（MiniMax-M2.5） 上下文窗口 200K Tokens

本地编辑工具

工具用途 TRAE 本地 Markdown 编辑与预览

关键功能

sessions_spawn：启动独立子代理，实现并行任务处理
Skill 系统：可复用的 AI 任务规范模板
文件处理：支持本地文件读写、批量操作

工作流程中使用的工具

字幕提取：B站字幕助手（Edge 浏览器插件）
- 链接：https://microsoftedge.microsoft.com/addons/detail/bilibili视频字幕助手/nbgmggaolhiphnfblaognehbfhfpndol
AI 助手：智谱 AutoClaw + OpenClaw 内核
AI 模型：百度千帆 Coding Plan（MiniMax-M2.5）
本地编辑：TRAE（Markdown 编辑器）
子代理调度：sessions_spawn 并行启动多个独立任务