Page 89 - 2024年第55卷第1期
P. 89
参考层次分析法中的标度思想 [26] ,以分数的形式体现不同策略在不同实体抽取过程中的相对重要
程度。以 “水文模型” 实体为例,由于存在中英文结合的情况,在形式和语义上存在一定的复杂性,
采用单一 BERT模型识别效果不佳,因此采用模式匹配等方法进行补充,提高抽取精度。模式匹配基
于预定义的规则模板寻找特定的模式结构,有一定准确性,但泛化能力弱,取其标度为 1;文章关键
词是作者选定的用于描述研究主题和内容的核心概念和术语,具有一定的先验性,相较于模式匹配重
要程度较高,取标度为 2;BERT模型预测是根据对文章的语义理解与上下文关联所抽取得到的结果,
具有综合较高的准确性和泛化能力,取标度为 3。以标度为三种方法的权重分数,基于这三种方法抽
取论文中可能是主题模型的词并对各方法抽取出的实体赋分,对抽取词分数加和后排序,再使用模式
匹配的方式过滤一遍抽取词,最后得到模型实体,如图 4所示。
图 4 模型实体抽取方案
3.3 关系抽取 目前关系抽取的常用方法为基于模板的关系抽取、基于监督学习的关系抽取与基于弱
监督学习的关系抽取 [27] 。本文采用了一种直接匹配和模式匹配结合的方法来提取实体关系。
对于单篇文章来说,抽取出的每一组实体间存在预定义好的关系,实体抽取后自动匹配预定义关
系即可。例如,从一篇文章中抽取的 “自然人” 与 “机构” 实体之间存在明确的 “任职于” 关系,
“水文模型” 与 “流域” 之间存在 “模拟区域” 关系等。但对于模型之间存在的继承关系,例如,一
个模型是基于另一个模型发展或改进出来的,这类关系的表述常常涉及复杂的语义理解,或隐含在某
种语境或者表达方式之中,无法通过直接匹配获得。本文采用模式匹配的方式,用 Python中的函数
refindall正则表达式构造关系模式进行抽取。构造的继承关系规则示例见表 2。
表 2 继承关系规则示例
规则编号 规则描述 正则表达式
规则一 “提出了 X模型的简化版本” re.findall(r′提出了([a - zA - Z] )的简化版本′,sentence)
规则二 “X模型在 Y模型的基础上” re.findall(r′([a - zA - Z0 - 9] )模型在([a - zA - Z0 - 9] )模型的基础上′)
规则三 “将 X模型和 Y模型整合” re.findall(r′将(. )模型和(. )模型整合′,sentence)
规则四 “融合 X模型和 Y模型” re.findall(r′融合([a - zA - Z] 模型)和([a - zA - Z] 模型)′,sentence)
规则五 “ X模型作为 Y模型的一种” re.findall(r′(. )模型作为(. )模型的一种′,sentence)
3.4 知识融合 从非结构化文本中抽取的实体可能存在多词共指等问题,需要进行实体的融合加工,
提高知识库的整体质量。水文模型知识图谱融合加工的主要任务包括水文模型与评价指标的实体融合。
实体融合是判断数据集中的 2个或多个实体是否指向同一对象的过程 [28] 。本文采用词汇表映射
法,构建水文模型词汇表,将同一模型的不同表述映射到标准名称上,根据映射表将同义模型实体合
并。本研究共整理了 98种模型的名称词表,部分水文模型词汇见表 3。
评价指标反映了水文模型模拟或预报的精度,不同的评价指标从不同方面体现了模型与参数在研
究区域的适用情况。根据不同的研究目的与问题,应用案例中水文模拟使用的评价指标也并不统一,
同时评价指标同义不同名的情况也多有存在,不利于知识表达与实际应用。需要将同义评价指标对
— 8 4 —