Page 73 - 2021年第52卷第8期
P. 73
图 4 水利实体关系模板
图 5 水利实体的关系共现矩阵示意
在本研究中,采用共现网络分析方法与模式匹配方法联合提取实体间的关系。首先基于共现网
络分析法统计水利文本中多个实体共现的频率,并通过实验来给定频率的阈值。然后采用模式匹配
法,对共现网络的分析结果添加关系,包括流经地区、管理机构、所在河流等。
(3)多源水利知识融合。
①水利实体融合。水利知识的融合主要是将不同数据源对同一实体或概念的描述统一起来,使
异构的图谱相互沟通 [29] ,可分为实体的融合、数据属性的融合、重名实体的消歧等多个层面。实体
的融合,是针对不同数据源对同一实体缺乏统一标识的问题,通过融合来构建不同数据源中实体的
语义关联。属性的融合是解决不同数据源中同一实体属性的一致性问题。重名实体的消歧,是对水
利对象中具有同名异意、异名同意、同名多源等特征的实体(如地名、水库名等)的融合,主要基于
实体结构和实体的属性特征进行匹配。在处理水利实体的消歧时,将所有数据节点投影到一个全局
的统一表征空间,针对每个候选集合分别构造一个局部表征函数,以此来度量两个实体节点之间的
相似度。然后基于相似度对节点进行聚类,并根据聚类结果对候选集合进行拆分,从而得到最终的
数据融合结果。
以实体的融合为例,如从百科词条中抽取到“水利部黄河水利委员会”实体,从行业数据库导入
的机构数据含有“黄委会”实体,这两个实体名称是对同一实体的描述,但因数据来源不同,需要对
二者进行融合。首先通过编辑距离指标来计算两个字符串的相似度,然后根据两个实体的属性信息
分析相关属性的相似度,最后基于两个实体的图谱关系(如上下级机构关系)计算图谱结构相似度。
通过对上述三种相似度进行综合分析,若大于设定阈值,则将两个实体进行融合。
②图谱跨域融合,即对水网图谱与水利学科图谱进行融合,包括水利原理或规律与水网实体的
融合、概念词条与水网实体之间的知识融合等。技术上先采用实体对齐技术匹配实体字符的局部特
征,然后再使用全局特征匹配两个图谱中的相关实体。在学者融合方面主要是对新增学者与库中已
有专家的匹配与更新,通过学者的属性信息判断是否与库中专家重复,对重复学者解决属性的一致
性问题。在主题词与水网实体的融合方面,通过建立主题词与水网实体的联系来实现,如构建“学科
领域—研究人员—任职机构—研究对象”等关系,实现学科主题词与水网对象中具体的人、机构、河
流等对象的关联。
以水网对象“黄河”与百科词条“水土保持”的跨域融合为例进行说明。在进行跨域融合时,首先
基于平台收录的数据查找二者的共现关系,包括在论文、专家研究领域的描述等文本中的共现;然
后根据二者的共现情况进行融合,若存在共现关系,且共现的载体(如论文)是已建图谱中的实体,
则将二者通过共现的中间实体建立关联;若共现的载体不在已有的图谱中,则根据共现网络分析的
方法来确定是否建立二者的关系。
— 953 —