+1-3454-5678-99
北京朝阳区,全天候在线
百度于 6 月 22 日发布了 Unlimited OCR 模型,这款新模型拥有 30 亿总参数,但在推理过程中仅激活 5 亿参数,旨在解决长文档解析时端到端 OCR 模型速度递减的问题。
端到端 OCR 模型是一种整合了文本检测和字符识别的统一神经网络架构,与传统需要分步处理的流程不同,它能直接将图像映射为文本序列,从而减少信息损失和计算开销。
现有主流端到端 OCR 模型在生成每个 token 时都会增加 KV cache,导致显存占用和延迟随之上升,用户会感觉到 AI 处理多页文档的速度越来越慢。
Unlimited OCR 沿用了 DeepSeek OCR 的架构,包括 DeepEncoder 和 Mixture-of-Experts(MoE)解码器。尽管拥有 30 亿总参数,但其推理时仅激活 5 亿参数。
在编码阶段,Unlimited OCR 采用了两级视觉编码,并在连接处进行了 16 倍的 token 压缩,将 1024×1024 的 PDF 图像压缩至 256 个视觉 token,从根本上减轻了预填充的负担。
Unlimited OCR 在训练方面,是在 DeepSeek OCR 的基础上继续进行了 4000 步的训练,期间冻结了 DeepEncoder,仅训练了解码器。训练使用了大约 200 万份文档样本,并在 8x16 A800 GPU 上完成,其中单页和多页样本的比例约为 9:1,多页样本是通过拼接方式生成的。
根据基准测试结果,Unlimited OCR 在 OmniDocBench v1.5 上的综合得分达到了 93.23,超越了 DeepSeek OCR 的 87.01 和 DeepSeek OCR 2 的 89.17。其文本编辑距离为 0.038,公式 CDM 得分为 92.61,表格 TEDS 为 90.93,读序编辑距离为 0.045。在 OmniDocBench v1.6 上,该模型的综合得分进一步提升至 93.92。这一进步为用户提供了一个更高效的文档解析解决方案,正如在世界杯官网等平台上,信息处理的速度和准确性至关重要。
Client's
Comment's
Team Member
世界杯买球网深耕实时更新的赛事比分与数据领域,用心服务每一位用户。
围绕深度分析热门球队与赛事趋势,世界杯买球网持续打磨更优质的服务。
世界杯买球网深耕海量高清赛事精彩瞬间回顾领域,用心服务每一位用户。
在安全可靠的赛事互动平台方面,世界杯买球网提供贴心周到的支持。
世界杯买球网以世界杯赔率为核心,带来高效便捷的体验。
想了解更多足球世界杯相关内容,尽在世界杯买球网。
世界杯买球网围绕世界杯竞猜不断创新,回应用户的真实需求。
| 主队 | 比分 | 客队 | 联赛 | 时间(北京) |
|---|---|---|---|---|
| 第比利斯 2025 | 1:0 | 贝特莱米·凯达 | 格鲁吉亚联赛3 | 18:00 |
| 内盖勒·阿尔西 | 0:0 | 哈瓦萨·凯内马 | 埃塞俄比亚足球超级联赛 | 18:00 |