DeepSeek-OCR本地部署教程:DeepSeek突破性开创上下文光学压缩,10倍效率重构文本处理范式

DeepSeek-OCR本地部署教程:DeepSeek突破性开创上下文光学压缩,10倍效率重构文本处理范式DeepSeek OCR 是深度求索 DeepSeek 于 2025 年 10 月 20 日开源的一款革命性 OCR 模型 其核心创新在于提出 上下文光学压缩 Contexts Optical Compression 技术 通过视觉模态实现文本信息的高效压缩与解压 该模型以 3B 参数量实现了 SOTA 级性能 按照官方的说法 单张 A100 40G 显卡日处理能力超 20 万页数据

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



DeepSeek-OCR 是深度求索(DeepSeek)于 2025 年 10 月 20 日开源的一款革命性 OCR 模型,其核心创新在于提出 上下文光学压缩 (Contexts Optical Compression)技术,通过视觉模态实现文本信息的高效压缩与解压。该模型以 3B 参数量实现了 SOTA 级性能,按照官方的说法,单张 A100-40G 显卡日处理能力超 20 万页数据,这为长文本处理和大模型优化提供了全新范式。

DeepSeek-OCR 采用 端到端视觉语言模型(VLM)架构 ,由两大核心组件构成:

1.DeepEncoder(视觉编码器)

专为高分辨率输入设计,通过 “局部感知 + 全局语义” 的双塔结构实现高效压缩:

2.DeepSeek3B-MoE 解码器

基于混合专家架构(MoE),推理时仅激活 64 个路由专家中的 6 个及 2 个共享专家,实际激活参数约 5.7 亿。该设计在保持 3B 模型表达能力的同时,实现了 500M 小模型的推理效率(8.2 页 / 秒,A100 显卡),支持从压缩后的视觉 Token 中重建原始文本。

image.png

DeepSeek-OCR 支持灵活的分辨率模式,适应不同硬件和场景需求:

原生分辨率模式:

动态分辨率模式(Gundam) :

基础环境推荐:

环境名称 版本信息 Ubuntu 22.04.4 LTS Cuda V12.1 Python 3.12 NVIDIA Corporation RTX 4090

注:该模型对于显存占用要求较低,16G显存也可部署,不过在识别pdf的较大文件占用显存较高。

查看系统版本信息

 
  

image.png 更新软件包列表

 
  

image.png

创建虚拟环境

 
  

image.png 激活虚拟环境

 
  

在github中将DeepSeek-OCR有关的官方存储库克隆下来,可见:deepseek-ai/DeepSeek-OCR:上下文光学压缩

 
  

image.png 进行DeepSeek-OCR目录下,执行命令 将仓库所需的各版本号依赖项进行下载

image.png 特别的,如需要该模型可视化访问页面,这里推荐huggingface上官方给出的gradio页面模板

 
  

image.png

同样的,使用该模板,也需要进入DeepSeek-OCR-Demo目录下,安装所需依赖项

image.png

这里推荐转到魔塔社区官网下载模型文件:DeepSeek-OCR · 模型库

image.png 使用命令行下载完整模型库

 
  

image.png 转到根目录下,创建 目录用于存放模型权重文件,在使用命令行下载 

 
  

image.png

进入 目录,修改其中的web启动代码app.py:

 
  

image.png 将模型的加载路径改为本地路径 以及lunch加载函数中设置 

image.png

image.png

 
  

image.png

将网址:http://localhost:8080/粘贴到浏览器中,便可与模型进行对话

image.png

小讯
上一篇 2026-04-09 11:06
下一篇 2026-04-09 11:04

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/217727.html