多模态 LLM Wiki Skill

多模态 LLM Wiki SkillLLM 负责写和维护 wiki 人负责阅读和提问 llm wiki skill 是一个运行在 Claude Code 中的 Skill 将任意格式的原始文档 PDF DOCX PPTX XLSX Markdown 图片 摄入到结构化 Wiki 并自动构建可交互的知识图谱 graph html 它实现 Karpathy 提出的知识管理理念

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



"LLM 负责写和维护 wiki;人负责阅读和提问。"


llm-wiki-skill 是一个运行在 Claude Code 中的 Skill,将任意格式的原始文档(PDF、DOCX、PPTX、XLSX、Markdown、图片)摄入到结构化 Wiki,并自动构建可交互的知识图谱(graph.html)。

它实现 Karpathy 提出的知识管理理念:知识在摄入时合成,而非查询时合成。每次新文档加入时,LLM 自动提取要点、建立交叉引用、标记矛盾、更新综合摘要,使知识库随每次摄入复利增长。

这与 RAG 的核心区别在于:RAG 把原始文档丢进向量库,查询时临时组装答案;llm-wiki 在摄入时就把知识编译为耐久的 wiki 页面,查询时读取已综合好的结论。


 
        
          / raw/ # 原始文档(永远不修改) 
         
           / # 按主题组织,一级子目录 wiki/ index.md # 所有页面的目录(按主题分区) overview.md # 跨来源的 living synthesis log.md # 只追加的操作日志 sources/ # 每份原始文档的摘要页 entities/ # 人物 / 公司 / 项目 / 产品 concepts/ # 概念 / 框架 / 方法论 syntheses/ # 查询答案存档 archive/ # 归档的过时页面 graph/ graph.json # 节点 + 边数据 graph.html # 基于 vis.js 的自包含可视化 
          
        

命令 用途 wiki-config workspace 设置 wiki 工作空间路径 wiki-config show 查看当前配置及目录状态 wiki-input [--topic ] 摄入任意路径文件(自动归档到 raw/ / wiki-ingest 摄入已在 raw/ 中的文件 wiki-query: <问题> 查询知识库,综合答案 wiki-lint 检查孤立页面、断链、矛盾等质量问题 wiki-graph 构建可视化知识图谱( graph.html

日常使用推荐 wiki-input :接受本地或远程路径,自动复制到 raw/ / 归档后再摄入,无需手动管理 raw/ 目录。


摄入(Ingest)

摄入一份文档时,LLM 会依次执行:

  1. 多模态内容提取(PDF/DOCX/PPTX/XLSX/图片 → Markdown)
  2. 写入 wiki/sources/ .md (摘要、要点、关键引用)
  3. 更新 wiki/index.mdwiki/overview.md
  4. 创建或更新 wiki/entities/wiki/concepts/ 页面
  5. 标记与已有内容的矛盾
  6. 追加操作日志到 wiki/log.md
查询(Query)

读取 wiki/index.md 识别相关页面,综合答案并以 [[PageName]] 格式内联引用。可选将答案存为 wiki/syntheses/ .md 归档备查。

知识图谱(Graph)

提取页面间的显式 wikilink(EXTRACTED)和 AI 推断的语义关联(INFERRED,置信度 ≥ 0.5),生成零依赖的自包含 graph.html,支持节点类型着色和社区分组。


格式 提取方式 .md .txt 直接读取 .pdf pdfplumber(文本 + 表格) .docx python-docx(正文 + 标题 + 表格) .pptx python-pptx(标题 + 正文 + 备注) .xlsx .csv pandas(转 Markdown 表格) .png .jpg .jpeg .webp .gif .bmp Claude vision(多模态)

llm-wiki 使用 Claude 原生多模态能力理解图像内容------不仅是 OCR 文字识别,而是对图表、流程图、截图的完整语义理解。

直接摄入图片文件

将图片文件直接传给 wiki-inputwiki-ingest,Claude 读取图片并转换为结构化 Markdown,再进入标准 Ingest 流程:

 
        
    
          
wiki-input ~/截图/架构图.png --topic system-design 

wiki-input ~/照片/白板会议.jpg –topic meetings

 

Claude 从图片中提取的内容:

  • 图表与折线图 — 数据系列、坐标轴标签、趋势、数值
  • 架构图与流程图 — 节点、连线、关系、流向
  • 截图 — UI 结构、可见文本、布局上下文
  • 手写笔记 / 白板 — 转录文字和绘制的结构
  • 图片中的表格 — 重建为 Markdown 表格
  • 混合内容 — 拍照或扫描的含文字和图形的文档
文档内嵌图片

摄入包含嵌入图片的 PDF、DOCX 或 PPTX 时,提取工具会获取所有文字内容。若文档中的图表对理解至关重要,而纯文字提取不足以覆盖,可将这些图表另存为图片文件单独摄入。

支持的图片格式
格式 说明 .png 无损压缩,适合截图、架构图 .jpg / .jpeg 照片、扫描文档 .webp 网络优化图片 .gif 分析第一帧(静态内容) .bmp 未压缩位图
多模态提取流程

所有图片内容经过与文本文档相同的 Ingest 流程——图片仅在进入流程前先转换为 Markdown:

 
        
    
          
图片文件 │ ▼ 

Claude Vision(Read 工具)

│ 提取:文字、结构、数据、关系 ▼ 

Markdown 描述

│ ▼ 

标准 Ingest 流程(步骤 2–10)

│ sources/ entities/ concepts/ index/ overview/ log/ ▼ 

Wiki 页面 + 知识图谱

 
        
    
          
# 1. 设置 wiki 工作空间 

wiki-config workspace ~/my-wiki

2. 摄入第一份文档

wiki-input ~/Downloads/paper.pdf –topic papers

3. 查询

wiki-query: 这篇论文的核心贡献是什么?

4. 构建知识图谱

wiki-graph

 
        
    
          

  • github.com/llmrix/llm-…

小讯
上一篇 2026-04-17 09:31
下一篇 2026-04-17 09:29

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/266678.html