合合信息推出文档解析新功能——助力图表数据自动提取—

（问题）科研评估、行业研究和企业知识管理中，图表往往承载关键结论。但大量论文、研报以PDF或图片形式传播，图表信息难以直接复用。研究人员通常需要逐点读取坐标、手工录入表格，再进行统计分析或建模验证。遇到柱状图、折线图、散点图等高频图表，以及多图联动对比等复杂场景时，人工处理不仅耗时长，也容易出现口径不一、格式难统一等问题，“看得见、用不了”的图表数据现象较为普遍。（原因）业内人士认为，图表数据提取难主要受三上影响：一是来源复杂。研报与论文常含扫描件、截图或压缩图片等非矢量图，清晰度不一，坐标刻度和标注容易缺失；二是结构复杂。多栏排版、浮动图表与脚注、公式混排，使阅读顺序还原和图表定位更困难；三是工具门槛与精度难兼顾。部分传统工具仍依赖大量手动框选与校正，效率提升有限；编程方式虽可批处理，但对使用者技术要求高，难非技术团队中推广。（影响）图表数据难以规模化回收，直接拖慢科研复现与企业决策节奏：对科研人员来说，重复录入占用大量时间，且录入误差会传导为后续分析偏差；对机构研究与产业部门而言，研报图表难沉淀为可检索资产，知识库往往停留在“文档存储”，难形成可计算、可对比、可追溯的数据基础。尤其在医药、半导体等研发密集行业，临床试验报告、工艺与质量文件中图表、表格、符号交织，如果缺少稳定的结构化能力，知识管理和跨部门协作都会受限。（对策）针对上述痛点，合合信息旗下TextIn文档解析推出图表数据提取功能，可识别柱状图、折线图、饼图、雷达图、散点图等多类图表，并自动抽取坐标轴标签、图例分类和数据点数值，将图表转换为表格化结构数据输出。对于缺少明确数值标注的复杂图表，系统可依据图形与坐标关系进行测量估算；对含数值标注的图表，则可直接生成较完整的表格结果。同时，面向论文与研报常见的复杂版式，工具提供版面结构分析能力，可识别多栏区域、段落区块、标题层级及图表等浮动元素，并按原始阅读逻辑输出结构化结果。针对理工医文献中高频出现的公式、化学方程式和特殊符号，也支持识别并以结构化格式输出，便于检索与复用。产品支持线上参数配置调用，降低部署和使用门槛，适配批量文档处理需求。（前景）业内分析认为，随着科研数据治理与企业数据资产化加速，文档解析正在从“识别文字”走向“拆解知识要素”，图表数据提取将成为连接文本信息与定量分析的关键环节。在落地应用上，据介绍，某头部医药企业在建设内部知识库时，需要处理临床试验报告与生物医学文献中的跨页段落、复杂表格与专业符号；采用统一解析引擎后，可将非结构化专业文档转化为可检索、可关联的结构化数据，支撑研发、供应链与质量、生产、内部资产及营销等多个知识库模块运行。下一步，随着更多行业材料实现标准化与批量化处理，图表数据的自动回收、校验与入库有望与企业分析流程更紧密衔接，为研判、复现与合规审计提供更可追溯的基础。

在数字经济时代，数据已成为重要生产要素。TextIn文档解析在图表数据提取等能力上的进展，既回应了真实业务场景中的效率与一致性问题，也表明了国内科技企业在基础工具领域的持续创新。随着这类技术在更多行业落地，知识管理从“存文档”走向“用数据”的路径将深入打通，我国在有关领域的能力与竞争力也有望随之提升。

合合信息推出文档解析新功能——助力图表数据自动提取——破解“数据孤岛”难题