2026年DeepSeek-OCR本地部署教程：DeepSeek突破性开创上下文光学压缩，10倍效率重构文本处理范式 - 教程

科技前沿 • 2026-04-05 20:37 • 阅读 1

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

DeepSeek-OCR 是深度求索（DeepSeek）于 2025 年 10 月 20 日开源的一款革命性 OCR 模型，其核心创新在于提出上下文光学压缩（Contexts Optical Compression）技术，通过视觉模态实现文本信息的高效压缩与解压。该模型以 3B 参数量实现了 SOTA 级性能，按照官方的说法，单张 A100-40G 显卡日处理能力超 20 万页数据，这为长文本处理和大模型优化提供了全新范式。

DeepSeek-OCR 采用端到端视觉语言模型（VLM）架构，由两大核心组件构成：

1.DeepEncoder（视觉编码器）

专为高分辨率输入设计，通过 “局部感知 + 全局语义” 的双塔结构实现高效压缩：

原生分辨率模式：
Tiny（512×512，64 Token）：适合移动端。
Small（640×640，100 Token）：平衡性能与效率。
Base（1024×1024，256 Token）：通用场景首选。
Large（1280×1280，400 Token）：高性能服务器。

基础环境推荐：

环境名称版本信息 Ubuntu 22.04.4 LTS Cuda V12.1 Python 3.12 NVIDIA Corporation RTX 4090

注：该模型对于显存占用要求较低，16G显存也可部署，不过在识别pdf的较大文件占用显存较高。

查看系统版本信息

创建虚拟环境

在github中将DeepSeek-OCR有关的官方存储库克隆下来，可见：deepseek-ai/DeepSeek-OCR：上下文光学压缩

同样的，使用该模板，也需要进入DeepSeek-OCR-Demo目录下，安装所需依赖项

进入目录，修改其中的web启动代码app.py：

将网址：http://localhost:8080/粘贴到浏览器中，便可与模型进行对话

2026年DeepSeek-OCR本地部署教程：DeepSeek突破性开创上下文光学压缩，10倍效率重构文本处理范式 - 教程

相关推荐