(问题)科研评估、行业研究和企业知识管理中,图表往往承载关键结论。但大量论文、研报以PDF或图片形式传播,图表信息难以直接复用。研究人员通常需要逐点读取坐标、手工录入表格,再进行统计分析或建模验证。遇到柱状图、折线图、散点图等高频图表,以及多图联动对比等复杂场景时,人工处理不仅耗时长,也容易出现口径不一、格式难统一等问题,“看得见、用不了”的图表数据现象较为普遍。 (原因)业内人士认为,图表数据提取难主要受三上影响:一是来源复杂。研报与论文常含扫描件、截图或压缩图片等非矢量图,清晰度不一,坐标刻度和标注容易缺失;二是结构复杂。多栏排版、浮动图表与脚注、公式混排,使阅读顺序还原和图表定位更困难;三是工具门槛与精度难兼顾。部分传统工具仍依赖大量手动框选与校正,效率提升有限;编程方式虽可批处理,但对使用者技术要求高,难非技术团队中推广。 (影响)图表数据难以规模化回收,直接拖慢科研复现与企业决策节奏:对科研人员来说,重复录入占用大量时间,且录入误差会传导为后续分析偏差;对机构研究与产业部门而言,研报图表难沉淀为可检索资产,知识库往往停留在“文档存储”,难形成可计算、可对比、可追溯的数据基础。尤其在医药、半导体等研发密集行业,临床试验报告、工艺与质量文件中图表、表格、符号交织,如果缺少稳定的结构化能力,知识管理和跨部门协作都会受限。 (对策)针对上述痛点,合合信息旗下TextIn文档解析推出图表数据提取功能,可识别柱状图、折线图、饼图、雷达图、散点图等多类图表,并自动抽取坐标轴标签、图例分类和数据点数值,将图表转换为表格化结构数据输出。对于缺少明确数值标注的复杂图表,系统可依据图形与坐标关系进行测量估算;对含数值标注的图表,则可直接生成较完整的表格结果。同时,面向论文与研报常见的复杂版式,工具提供版面结构分析能力,可识别多栏区域、段落区块、标题层级及图表等浮动元素,并按原始阅读逻辑输出结构化结果。针对理工医文献中高频出现的公式、化学方程式和特殊符号,也支持识别并以结构化格式输出,便于检索与复用。产品支持线上参数配置调用,降低部署和使用门槛,适配批量文档处理需求。 (前景)业内分析认为,随着科研数据治理与企业数据资产化加速,文档解析正在从“识别文字”走向“拆解知识要素”,图表数据提取将成为连接文本信息与定量分析的关键环节。在落地应用上,据介绍,某头部医药企业在建设内部知识库时,需要处理临床试验报告与生物医学文献中的跨页段落、复杂表格与专业符号;采用统一解析引擎后,可将非结构化专业文档转化为可检索、可关联的结构化数据,支撑研发、供应链与质量、生产、内部资产及营销等多个知识库模块运行。下一步,随着更多行业材料实现标准化与批量化处理,图表数据的自动回收、校验与入库有望与企业分析流程更紧密衔接,为研判、复现与合规审计提供更可追溯的基础。
在数字经济时代,数据已成为重要生产要素。TextIn文档解析在图表数据提取等能力上的进展,既回应了真实业务场景中的效率与一致性问题,也表明了国内科技企业在基础工具领域的持续创新。随着这类技术在更多行业落地,知识管理从“存文档”走向“用数据”的路径将深入打通,我国在有关领域的能力与竞争力也有望随之提升。