中国主导制定全球首个可度量数量信息抽取国际标准 破解非结构化数据价值挖掘难题

在数字化转型加速推进的背景下,文本数据正成为重要的基础资源之一。

然而,真正支撑分析与决策的关键往往不是“文字本身”,而是隐藏在文字中的客观量化信息,例如剂量、阈值、区间、比例、规模等。

国际标准化组织(ISO)近日发布ISO 24617-15《语言资源管理——语义标注框架(SemAF)——第15部分:可度量数量信息抽取》,为机器在不同领域一致、规范地识别和抽取文本中的数量信息提供了统一规则。

该标准经多轮国际投票形成,目前已被德国、法国、荷兰、丹麦、瑞士等10多个国家标准机构收录,显示出较强的国际认可度。

问题:非结构化文本“富矿”难以直接变为可用数据 从医疗电子病历、检验报告到上市公司财报、审计材料,再到电力运行记录、设备检修报告,大量业务信息以自然语言形态沉淀。

其间包含的“可度量数量信息”往往是判断风险、评估效益、制定策略的核心依据。

但长期以来,这类信息难以被自动、稳定地抽取并结构化沉淀:同一指标可能有多种表达方式,单位可能缺失或混用,区间、范围、阈值等表达复杂且存在歧义,指标与对象、时间、条件之间关系交织,导致跨系统比对困难、跨场景复用成本高,影响数据资源开发利用。

原因:语言表达多样与行业差异叠加,缺少“统一语义尺度” 业内人士指出,数量信息抽取之所以成为瓶颈,本质在于自然语言的高变性与行业文本的强专业性同时存在。

一方面,数量信息并非简单的“数字+单位”,其语义往往依赖上下文:对象是谁、属性是什么、是否为估计值、是否为上限下限、适用条件是什么等都需要明确标注;另一方面,医疗、电力、金融等行业对数量的精确性要求高,错误抽取可能带来风险。

同时,缺乏统一流程规范也使得不同机构、不同工具之间难以互认,数据口径不一进一步削弱了数据要素的流通与价值释放。

影响:标准化抽取有望提升数据治理水平与智能化应用效率 ISO 24617-15的发布,聚焦“可度量数量信息”抽取的共性环节,构建可跨领域应用的流程规范,并与既有的语义表示框架形成衔接。

据介绍,该标准的意义主要体现在三方面:一是为数量信息从识别、解析到结构化输出建立通用路径,减少“各做一套”的重复投入;二是为自动化处理提供统一的标注与抽取指南,利于规模化文本挖掘、数据转换、自动比对等应用;三是为高质量数据资源建设提供基础支撑,促进非结构化文本向结构化数据转化,提升数据要素开发利用的可持续性。

对策:以“产学研用”协同推动标准从发布走向可落地 该国际标准由华南师范大学、中国标准化研究院等牵头,行业企业广西电网有限责任公司深度参与,体现科研创新与行业需求的对接路径。

业内认为,国际标准的价值不仅在于文本本身,更在于能否形成可操作、可验证、可推广的工具链与应用规范。

下一步,推动标准落地需要多方协同:在技术层面,将标准嵌入数据治理平台、文本处理系统和行业应用工具,形成可复用组件;在管理层面,建立与业务指标、数据口径一致的对照体系,推动跨部门、跨机构数据互认;在生态层面,加强示范应用与评测机制建设,通过典型场景验证提升可复制性,带动更多行业和地区采用统一规则。

前景:面向数据要素市场化与行业智能化升级,基础标准作用将更突出 随着数据资源体系建设推进,非结构化文本的结构化转化将成为提升数据供给质量的重要环节。

医疗领域中,电子病历、检验报告、科研文献中的剂量、指标阈值、浓度区间等信息若能按统一规则抽取,将有助于形成可追溯、可比对的临床数据资产;电力领域中,运行报告、缺陷记录、检修工单等文本若能精准提取关键数值与条件关系,有望提升风险预警与运维效率;金融与审计场景中,对金额、比例、增长区间等数据的标准化抽取,将增强报表核验、风险识别与合规分析能力。

可以预见,随着跨语言、跨行业数据交换需求增加,数量信息抽取这类“基础能力”的标准化,将成为推动数据互联互通、促进应用创新的重要支点。

标准化是激活数据要素的关键一步。

此次由中国主导发布的可度量数量信息抽取国际标准,不仅填补了全球技术空白,更重要的是体现了中国在数据标准化、语义计算等前沿领域的创新实力和国际影响力。

随着该标准在全球范围内的推广应用,将进一步推动非结构化数据向结构化数据的转化,加速数据要素在各行业的价值释放,为全球数字经济发展注入新的动力。

这也充分说明,只有坚持产学研用深度融合,才能在国际竞争中掌握话语权,引领行业发展方向。