中国主导制定全球首个可度量数量信息抽取国际标准破解非结构化数据价值挖掘难题

在数字化转型加速推进的背景下，文本数据正成为重要的基础资源之一。

然而，真正支撑分析与决策的关键往往不是“文字本身”，而是隐藏在文字中的客观量化信息，例如剂量、阈值、区间、比例、规模等。

国际标准化组织（ISO）近日发布ISO 24617-15《语言资源管理——语义标注框架（SemAF）——第15部分：可度量数量信息抽取》，为机器在不同领域一致、规范地识别和抽取文本中的数量信息提供了统一规则。

该标准经多轮国际投票形成，目前已被德国、法国、荷兰、丹麦、瑞士等10多个国家标准机构收录，显示出较强的国际认可度。

问题：非结构化文本“富矿”难以直接变为可用数据从医疗电子病历、检验报告到上市公司财报、审计材料，再到电力运行记录、设备检修报告，大量业务信息以自然语言形态沉淀。

其间包含的“可度量数量信息”往往是判断风险、评估效益、制定策略的核心依据。

但长期以来，这类信息难以被自动、稳定地抽取并结构化沉淀：同一指标可能有多种表达方式，单位可能缺失或混用，区间、范围、阈值等表达复杂且存在歧义，指标与对象、时间、条件之间关系交织，导致跨系统比对困难、跨场景复用成本高，影响数据资源开发利用。

原因：语言表达多样与行业差异叠加，缺少“统一语义尺度” 业内人士指出，数量信息抽取之所以成为瓶颈，本质在于自然语言的高变性与行业文本的强专业性同时存在。

一方面，数量信息并非简单的“数字+单位”，其语义往往依赖上下文：对象是谁、属性是什么、是否为估计值、是否为上限下限、适用条件是什么等都需要明确标注；另一方面，医疗、电力、金融等行业对数量的精确性要求高，错误抽取可能带来风险。

同时，缺乏统一流程规范也使得不同机构、不同工具之间难以互认，数据口径不一进一步削弱了数据要素的流通与价值释放。

影响：标准化抽取有望提升数据治理水平与智能化应用效率 ISO 24617-15的发布，聚焦“可度量数量信息”抽取的共性环节，构建可跨领域应用的流程规范，并与既有的语义表示框架形成衔接。

据介绍，该标准的意义主要体现在三方面：一是为数量信息从识别、解析到结构化输出建立通用路径，减少“各做一套”的重复投入；二是为自动化处理提供统一的标注与抽取指南，利于规模化文本挖掘、数据转换、自动比对等应用；三是为高质量数据资源建设提供基础支撑，促进非结构化文本向结构化数据转化，提升数据要素开发利用的可持续性。

对策：以“产学研用”协同推动标准从发布走向可落地该国际标准由华南师范大学、中国标准化研究院等牵头，行业企业广西电网有限责任公司深度参与，体现科研创新与行业需求的对接路径。

业内认为，国际标准的价值不仅在于文本本身，更在于能否形成可操作、可验证、可推广的工具链与应用规范。

下一步，推动标准落地需要多方协同：在技术层面，将标准嵌入数据治理平台、文本处理系统和行业应用工具，形成可复用组件；在管理层面，建立与业务指标、数据口径一致的对照体系，推动跨部门、跨机构数据互认；在生态层面，加强示范应用与评测机制建设，通过典型场景验证提升可复制性，带动更多行业和地区采用统一规则。

前景：面向数据要素市场化与行业智能化升级，基础标准作用将更突出随着数据资源体系建设推进，非结构化文本的结构化转化将成为提升数据供给质量的重要环节。

医疗领域中，电子病历、检验报告、科研文献中的剂量、指标阈值、浓度区间等信息若能按统一规则抽取，将有助于形成可追溯、可比对的临床数据资产；电力领域中，运行报告、缺陷记录、检修工单等文本若能精准提取关键数值与条件关系，有望提升风险预警与运维效率；金融与审计场景中，对金额、比例、增长区间等数据的标准化抽取，将增强报表核验、风险识别与合规分析能力。

可以预见，随着跨语言、跨行业数据交换需求增加，数量信息抽取这类“基础能力”的标准化，将成为推动数据互联互通、促进应用创新的重要支点。

标准化是激活数据要素的关键一步。

此次由中国主导发布的可度量数量信息抽取国际标准，不仅填补了全球技术空白，更重要的是体现了中国在数据标准化、语义计算等前沿领域的创新实力和国际影响力。

随着该标准在全球范围内的推广应用，将进一步推动非结构化数据向结构化数据的转化，加速数据要素在各行业的价值释放，为全球数字经济发展注入新的动力。

这也充分说明，只有坚持产学研用深度融合，才能在国际竞争中掌握话语权，引领行业发展方向。

中国主导制定全球首个可度量数量信息抽取国际标准 破解非结构化数据价值挖掘难题

中国主导制定全球首个可度量数量信息抽取国际标准破解非结构化数据价值挖掘难题