DeepSeek-OCR 是深度求索(DeepSeek)于 2025 年 10 月 20 日开源的一款革命性 OCR 模型,其核心创新在于提出 上下文光学压缩 (Contexts Optical Compression)技术,通过视觉模态实现文本信息的高效压缩与解压。该模型以 3B 参数量实现了 SOTA 级性能,按照官方的说法,单张 A100-40G 显卡日处理能力超 20 万页数据,这为长文本处理和大模型优化提供了全新范式。
DeepSeek-OCR 采用 端到端视觉语言模型(VLM)架构 ,由两大核心组件构成:
1.DeepEncoder(视觉编码器)
专为高分辨率输入设计,通过 “局部感知 + 全局语义” 的双塔结构实现高效压缩:
原生分辨率模式 :
Tiny(512×512,64 Token):适合移动端。
Small(640×640,100 Token):平衡性能与效率。
Base(1024×1024,256 Token):通用场景首选。
Large(1280×1280,400 Token):高性能服务器。
基础环境推荐:
注:该模型对于显存占用要求较低,16G显存也可部署,不过在识别pdf的较大文件占用显存较高。
查看系统版本信息
创建虚拟环境
在github中将DeepSeek-OCR有关的官方存储库克隆下来,可见:deepseek-ai/DeepSeek-OCR:上下文光学压缩
同样的,使用该模板,也需要进入DeepSeek-OCR-Demo目录下,安装所需依赖项
进入 目录,修改其中的web启动代码app.py:
将网址:http://localhost:8080/粘贴到浏览器中,便可与模型进行对话
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/221427.html