快速了解一下 DeepSeek-OCR
2025年 10 月 20 号 DeepSeek 团队在 HuggingFace 开源 DeepSeek-OCR ,该模型主要用于探索一种名为“上下文光学压缩” (contexts optical compression) 的创新理念。该方法旨在解决大型语言模型 (LLM) 在处理长文本时面临的计算效率难题,通过将文本信息渲染成图像,利用视觉 Token 实现比原始文本 Token 更高效的压缩。 主要观点 核心问题: 当前的大型语言模型 (LLM) 在处理长文本时,其计算复杂度会随文本长度呈二次方增长,导致效率低下。 创新方案: 提出“上下文光学压缩”概念,即将文本内容转换为图像,利用视觉语言模型 (VLM) 进行处理。由于一张图像可以用远少于原始文本的视觉 Token 来表示,这种方法有望实现极高的信息压缩率。 关键成果: 研发了 DeepSeek-OCR 模型作为此概念的验证。实验证明,该模型能在 9-10x 的压缩率下达到 96% 以上的文本解码精度。此外,DeepSeek-OCR 在主流的文档解析基准测试中,以最少的视觉 Token 消耗实现了端到端模型中的最佳性能 (state-of-the-art)。 关键细节 模型架构与创新 DeepSeek-OCR 组成: 模型由两部分构成:一个新颖的视觉编码器 DeepEncoder 和一个 DeepSeek-3B-MoE 解码器。 DeepEncoder 架构: 这是模型的核心创新。它串联了以窗口注意力为主的 SAM 模型和以全局注意力为主的 CLIP 模型,并通过一个 16x 的卷积压缩器连接两者。这种设计使得模型在处理高分辨率图像时,能有效控制计算内存和视觉 Token 的数量。 多分辨率支持: DeepEncoder 支持多种分辨率模式(如 Tiny, Small, Base, Large, Gundam),使其能够灵活测试不同压缩比下的性能,并适应不同复杂度的文档。 性能评估 视觉-文本压缩率研究: 在 Fox 基准测试中,DeepSeek-OCR 表现出色: 在 9-10x 的压缩比下,解码精度超过 96%。 在 10-12x 的压缩比下,精度约为 90%。 即使在接近 20x 的高压缩比下,精度仍能保持在 60% 左右。 OCR 实践性能: 在 OmniDocBench 基准测试中,DeepSeek-OCR 的表现优于其他端到端模型: 仅用 100 个视觉 Token,性能就超过了使用 256 个 Token 的 GOT-OCR2....