DeepSeek-OCR2发布:以“视觉因果流”重塑机器阅读逻辑

DeepSeek 最新发布的 DeepSeek-OCR2,在文档理解与文字识别领域实现了关键突破。其核心创新来自于自研的 DeepEncoder V2 编码器,该模型首次将“视觉因果流(Visual Causal Flow)”引入 OCR 任务,使机器的阅读方式从“机械扫描”迈向“语义驱动”。

语义优先的视觉理解方式

传统 OCR 模型通常按照从左到右、从上到下的固定栅格顺序处理图像,这种方式在面对表格、公式或多栏文档时容易打乱原有结构。
DeepSeek-OCR2 则彻底改变了这一逻辑。通过“视觉因果流”机制,模型能够在识别文字之前,先对图像内容进行语义级排序与结构分析,动态决定信息处理顺序,使阅读路径更贴近人类的理解方式。

高效架构下的性能跃升

在模型架构上,DeepSeek-OCR2 延续了高效的 编解码框架

  • 图像首先由 DeepEncoder V2 完成语义建模与顺序重组

  • 随后交由 混合专家(MoE)语言模型进行解码输出

OmniDocBench v1.5 基准测试中,DeepSeek-OCR2 的整体得分达到 91.09%,相比前代模型提升 3.73%。尤其在阅读顺序准确度方面,编辑距离显著降低,表明模型在复杂文档结构还原上更为精准。

更稳定的真实场景表现

在实际应用中,DeepSeek-OCR2 同样表现出更高的可靠性。
PDF 批量处理在线日志数据 测试中,模型的识别重复率明显下降。这意味着,在保持低资源消耗的前提下,新模型能够持续输出更连贯、更具逻辑性的识别结果,非常适合大规模文档处理场景。


划重点

  • 动态语义排序
    通过“视觉因果流”技术,突破传统固定栅格限制,实现基于语义的智能阅读顺序建模

  • 性能跨越式提升
    权威基准测试中整体性能提升 3.73%,复杂文档阅读顺序还原能力显著增强

  • 高效 MoE 架构
    在不增加算力负担的情况下,实现更高的识别精度与输出稳定性