DeepSeek-OCR本地部署教程：DeepSeek突破性开创上下文光学压缩，10倍效率重构文本处理范式

科技前沿 • 2026-04-09 11:05 • 阅读 0

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

DeepSeek-OCR 是深度求索（DeepSeek）于 2025 年 10 月 20 日开源的一款革命性 OCR 模型，其核心创新在于提出上下文光学压缩（Contexts Optical Compression）技术，通过视觉模态实现文本信息的高效压缩与解压。该模型以 3B 参数量实现了 SOTA 级性能，按照官方的说法，单张 A100-40G 显卡日处理能力超 20 万页数据，这为长文本处理和大模型优化提供了全新范式。

DeepSeek-OCR 采用端到端视觉语言模型（VLM）架构，由两大核心组件构成：

1.DeepEncoder（视觉编码器）

专为高分辨率输入设计，通过 “局部感知 + 全局语义” 的双塔结构实现高效压缩：

2.DeepSeek3B-MoE 解码器

基于混合专家架构（MoE），推理时仅激活 64 个路由专家中的 6 个及 2 个共享专家，实际激活参数约 5.7 亿。该设计在保持 3B 模型表达能力的同时，实现了 500M 小模型的推理效率（8.2 页 / 秒，A100 显卡），支持从压缩后的视觉 Token 中重建原始文本。