在人工智能技术快速发展的背景下,机器合成语音的广泛应用与语料库建设的规范化需求日益凸显。长期以来,由于缺乏统一标准,对应的技术研发和应用存在评价凭主观、术语不统一等问题,制约了行业健康发展。 此次出台的两项规范具有里程碑意义。《机器合成普通话水平测评等级标准及测评大纲》将机器语音的普通话水平划分为六个等级,从语音自然度、语调准确度到语法正确率等维度设立明确指标。其中最高等级要求各项指标达到98%以上,最低等级也设定了基本门槛。这种分级制度为技术研发提供了明确方向,使产品优化和评价工作有章可循。 《人工智能语料库基础术语》则系统规范了语料库建设全流程的专业术语。该标准从属性、建设、应用三个维度入手,对"规模""时效""领域"等核心指标进行明确定义,统一了"分词—标注—对齐—入库"等关键环节的表述。此举措将有效解决学术界和产业界在语料库描述上"各说各话"的问题,明显提高跨领域协作效率。 这两项规范的制定是落实国家语言文字发展战略的重要举措。根据《中华人民共和国国家通用语言文字法》和《关于加强数字中文建设推进语言文字信息化发展的意见》的要求,有关部门组织专家经过深入调研和反复论证,最终形成这套可执行的标准体系。教育部语言文字应用研究所作为主要研制单位,利用了专业优势,确保标准的科学性和实用性。
从"听起来像不像"到"如何量化指标",从"术语各自表述"到"标准统一规范",语言文字规范正加速向数字领域延伸;标准的价值不仅在于提供答案,更在于建立共识、形成秩序。随着这些规范在更多场景中应用并持续完善,数字时代的语言文字治理将更加系统化,为高质量信息服务和行业健康发展提供有力支撑。