华中科技大学与金山办公联合推出Monkey OCR模型 文档解析性能达到全球领先水平

当前,人工智能在政务、金融、制造、科研等领域加速落地,文档作为知识与流程的主要载体,其解析与理解能力直接决定应用效果。

然而,现实场景中的企业文档往往并非“干净数据”:格式多样、结构复杂、跨页表格频繁、图文混排常见,还夹杂行业术语与多语言表达,导致信息抽取不稳定、知识归集成本高、应用落地难以规模化。

如何让系统像人一样“读懂”文档,成为文档智能与企业数据治理面临的突出问题。

在1月27日举行的WPS 365上海协同办公峰会上,华中科技大学教授、博士生导师刘禹良表示,联合团队推出的MonkeyOCR模型在文档解析任务中表现突出:在约3B参数规模下取得中英文文档解析任务的最佳成绩,最新迭代版本MonkeyOCR v1.5在国际权威文档解析榜单上获得综合性能第一,体现出面向文档场景的专项优化路径具备竞争力。

刘禹良同时强调,企业级应用要见成效,必须把非结构化数据质量治理放在智能化战略核心位置,先夯实数据与知识底座,再谈业务端的智能提升。

从原因看,业内相当一部分通用多模态模型依赖“堆参数、堆数据”来提高泛化能力,但并非为文档智能任务而生,对文字细粒度感知、版式结构约束、阅读顺序推理等环节缺乏针对性优化。

多模态评测基准OCRBench v2的相关测试结果显示,现有多模态模型在复杂、多样化OCR任务上的准确率仍有明显短板,这也解释了为何在企业真实文档场景中,模型“看得见、读不准、理不清”的问题较为普遍。

刘禹良指出,在非结构化文档治理领域,单纯遵循规模化法则并不必然带来收益:在某些任务上,参数量继续增加不仅难以提升效果,反而可能带来推理效率下降等工程代价。

围绕这一痛点,Monkey系列提出“结构优先”的技术思路,将传统文档处理常见的多模块拼接方式,转向更统一、可协同优化的框架,并把非结构化文档解析抽象为结构、识别、关系三类核心任务:先定位段落、图片、标题等结构要素,再在结构约束下完成文字识别,并建立元素之间的对应关系与阅读顺序,从而使模型输出更贴近“可用的业务信息”。

据介绍,MonkeyOCR v1.5由金山办公牵头引入视觉一致性强化学习等方法强化复杂表格理解,支持表格内嵌图片还原、跨页表格合并等能力,在复杂表格场景实现较高精度表现,回应了企业表格占比高、格式变化大的现实需求。

从影响看,文档解析能力的提升不仅关乎单点技术指标,更关乎企业知识资产的“可计算化”。

一方面,它可降低从合同、报告、票据、技术文档等材料中获取关键信息的成本,为检索问答、审阅对比、风险识别、流程自动化等应用提供可信输入;另一方面,也为构建企业级知识库、形成可持续迭代的知识治理闭环提供支撑。

与此同时,学界与产业的协同创新正在带动文档智能向更深层次推进。

此前,华中科技大学团队在文档智能赋能甲骨文考释方面取得进展,并获得国际计算语言学年会相关奖项,显示文档解析技术在文化遗产保护与学术研究等方向同样具备广阔空间。

在对策层面,多位与会观点指向同一条路径:推动企业智能化要从“应用先行”回到“数据先行”,以非结构化数据治理为抓手完善全流程能力。

企业内部文档分散在不同系统与部门,质量参差不齐,缺少统一标准与可追溯机制,往往成为智能化落地的隐性门槛。

围绕数据归集、智能解析、知识治理到场景应用的全链路建设,将有助于把“分散信息”转变为“可运营资产”。

峰会上发布的一站式协同办公平台也提出面向企业提供相关能力,以提升组织级知识沉淀与调用效率。

面向前景,文档智能的竞争焦点正从“通用能力比拼”转向“垂直场景深耕+工程可落地”。

据介绍,双方下一步计划推出更大规模的多语言文档解析数据集与OCR视觉基座模型,并探索在更低算力条件下实现更快更准的推理,以降低企业部署门槛。

可以预见,随着政策引导与产业需求共振,面向复杂文档的结构化理解、跨语言迁移、可解释与可控输出等方向将成为下一阶段攻关重点。

谁能把“读懂文档”变成稳定可复制的生产能力,谁就更可能在企业智能化浪潮中赢得先机。

当人工智能技术进入深水区,从参数竞赛转向场景深耕成为必然选择。

MonkeyOCR模型的成功实践表明,立足实际需求的技术创新比盲目追求规模更具生命力。

在推进新型工业化的进程中,如何将学术突破转化为产业优势,这道命题的答案或许就藏在这类产学研深度融合的创新范式之中。

随着数字中国建设持续推进,此类基础性技术突破的价值必将得到更充分的释放。