Unlimited OCR：长文档 OCR 的「软遗忘」方案

图集顺序：从为什么值得看 → R-SWA 怎么做 → 跑分信号 → 长文档能力与边界。

新智元在 2026-06-22 11:36 发布文章《刚刚，百度开源拿下全球第一！作者疑似 DeepSeek 出走大神》，报道百度开源 Unlimited OCR，并把它概括为「3B 参数、500M 激活、可一次解析 40 多页文档」的长文档 OCR 方案。1

百度官方 GitHub/Hugging Face 页面显示，Unlimited OCR 于 2026-06-22 发布，代码、模型权重与技术报告已公开；Hugging Face 页面标注模型大小为 3B params。2 3

技术报告的核心不是把模型堆大，而是把 decoder 的标准注意力替换为 Reference Sliding Window Attention（R-SWA）：每个生成 token 都能看见全部参考 token（视觉 token 与提示词），但输出侧只回看最近 n 个 token，默认 n=128，因此 KV cache 不再随输出长度线性增长。4

论文表 1 显示，Unlimited OCR 在 OmniDocBench v1.5 上 Overall 为 93.23，在 v1.6 上 Overall 为 93.92；相对 DeepSeek OCR 基线，v1.5 Overall 提升 6.22 点，Text Edit 从 0.073 降到 0.038，Formula CDM 从 83.37 升到 92.61，Table TEDS 从 84.97 升到 90.93。4

长文档测试里，论文表 3 给出 40+ 页场景 Distinct-35 为 96.90%、Edit Distance 为 0.1069；表 4 给出输出 6144 token 时 Unlimited OCR 理论 TPS 为 7847.71，DeepSeek OCR 为 5822.87，论文称约 35% 差距。4

需要保留边界：报告也明确说，有限上下文下还不能做到真正无限解析，32K 场景仍受 prefill 长度限制；后续方向是训练 128K 上下文，并构建 prefill pool，让模型学习自动取回 prefill KV chunk。4

Unlimited OCR：OCR 不再逐页失忆

Unlimited OCR：长文档 OCR 的「软遗忘」方案

References

Related content

BudCache：扩散缓存离线搜

Memory 技术日报 2026-06-22：PixelRAG、codebase-memory-mcp 与 QKV 共享

6月下旬：Claude Tag、Kimi Work 与 OCR 4，把 Agent 推进企业工作流

Comments