云知声在实现文档认知方面有了新进展,他们给大家推出了一款工业级的文档智能基础大模型,取名为Unisound U1-OCR。26号那天,这个大模型正式登场了。它有五大优点:性能顶呱呱(SOTA)、可信度高、上手就用、部署速度快、适应性强,直接打破了传统文档处理的边界。以前的方案(OCR 1.0,主要用CRNN)只能识别文字,现在新的方案(OCR 2.0,主要用VLM)能从头到尾理解版面结构和文字识别。这次推出的Unisound U1-OCR更是开启了OCR 3.0时代,在理解版面结构的基础上,还能看透文档的深层意思,自动分类和抽取关键信息。 这个模型先学会理解文档的结构再去阅读内容。和传统模型不同的是,它不像人类那样死板地按照顺序一个字一个字读,而是用一种聪明的办法:“语义驱动加动态聚焦”。就像我们读书一样,先浏览一下目录、标题之间的关系,再根据需要提取内容。模型可以自动画一张“语义地图”,把标题、图表和正文之间的关系搞得清清楚楚,就算排版乱七八糟也能弄得条理分明。 而且这个模型还有敏锐的空间感知能力。通过增强空间对齐模块和动态分辨率技术,它可以充分利用文字在页面上的位置信息来理解元素之间的空间布局。不管是密密麻麻的表格还是图文混排的场景,它都能把结构还原得很好,彻底解决了以前模型在空间识别上的问题。 在实际应用中通用OCR工具在一些专业领域还是有点局限的。比如在医疗结算单里区分“自付一”、“自付二”和“个人自费”,或者在合同里验证金额大写小写对不对,这些都需要专业知识。Unisound U1-OCR融合了云知声在医疗、金融等行业积累的知识体系后变得特别聪明,在处理这些领域的问题时能准确无误。 在内部测试中,面对50多种常见文书分类的时候准确率达到了99%。另外对于报纸、期刊这些多栏交叉、图文交织的复杂版面处理起来也很得心应手。不像以前那些方案有时候会陷入“下一段该读哪里”的混乱中。 云知声的这个创新直接把我们从“只能识别文字”带到了“真正理解文档”的新阶段。以后处理各种复杂文档的问题将会变得非常轻松!