Page 74 - 2021年第52卷第8期
P. 74
以上基于多源数据进行的水利知识融合,需对从异构数据中抽取的知识图谱元数据进行语义集
成。在本研究中,语义集成采用了基于贝叶斯决策理论提出的最小风险映射模型(Risk Minimization
[30]
based Ontology Mapping,RiMOM) ,将决策行为定义为两类本体(包括概念、关系、实例等)中不同
元素的所有可能映射,分析水利本体间映射的风险最小决策行为,其主要流程包括候选映射选择、
多策略的映射发现、多策略合并以及映射发现机制,映射发现过程迭代运行直到不能再发现新的映
射为止,最终得到两类本体中元素间的映射关系。
4 图谱构建实例及应用
4.1 图谱抽取成果 以全国河流水系编码数据、行政区划数据、重要水利工程管理数据等关系型数
据库为基础,基于本文方案构建水利综合知识图谱。并基于水利百科、论文及新闻数据对图谱的实
体及关系数据进行补充。抽取的实体类型包括流域、水系、河流、湖泊、水电站、水库、大坝、机
构、人员、文献、水利术语等,构建的实体关系包括水系-河流(所在水系)、河流-行政区域(所在地
区)、文献-水利术语(研究领域)等,累计抽取水利实体超过 136 万个(表 2),构建实体关系超过 300
万条(表 3)。因不同实体对象的粒度不同,基于实体抽取的关系与实体的数量上存在一定差异。
表 2 水利专业知识图谱实体统计 表 3 水利专业知识图谱关系统计
实体类型 实体数量(个) 实体类型 实体数量(个) 关系类型 关系数量(条) 关系类型 关系数量(条)
水系 71 水利管理机构 2585 水系-河流 2240 人员-机构 193902
河流 3615 水利研究机构 93726 湖泊-行政区 3102 机构-机构 1854
湖泊 2980 水利管理人员 317 湖泊-河流 336 文献-水利术语 1284807
流域 11 水利科研人员 169537 水库-河流 2916 河流-行政区 7133
水库 48554 行政区 709959 水电站-河流 10 水电站-行政区 980
大坝 27 主题词 72888 行政区-行政区 709926 文献-人员 320854
水电站 1106 文献 325709 水利术语-水利术语 279382
关于实体识别准确性的评价,采用 F 值来评估图谱构建中对实体标注成果的一致性 [31] ,其计算
表达式为:
F = 2 × P × R
P + R
式中:P 为准确率,是识别正确实体数与识别实体数之比;R 为召回率,定义为识别正确实体数与总
实体数之比。F 值越大,表明标注的一致性越好。
按照知识图谱构建中语料分割的常用方法 [32] ,将实体识别语料按 8∶1∶1 的比例生成训练集、验
证集和测试集,对 9 类实体数据进行了标注测试,各类实体 F 值的统计结果如表 4 所示。测试结果表
明,抽取的水利实体对象的标注准确率均在 80%以上,可以认为语料的一致性是可信赖的 [33] ,实体
识别的结果具有较高准确性。 表 4 各类实体类型标注准确率
4.2 水网图谱结果展示 由于水网对象数量较多,
实体类别 标注准确率/%
本文以北京地区的各类水利水网对象进行图谱的展 大坝(DAM) 85
示(图 6)。北京市地处海河流域,海河流域同时又 水电站(HYD) 86
流经天津、河北等省市,由此关联了流域与行政区 湖泊(LAK) 88
两 类 实 体 ; 北 京 地 区 有 北 海 、 团 城 湖 等 湖 泊 类 对 机构(ORG) 81
人名(PER) 80
象,还有潮白河、怀河等河流对象,由此将行政区
水库(RES) 85
与 湖 泊 、 河 流 对 象 相 关 联 ; 这 些 河 流 和 湖 泊 , 在
河流(RIV) 86
海 河 流 域 中 又 分 属 于 不 同 的 水 系 , 如 北 海 属 于 海 水利术语(TER) 81
河 流 域 的 北 三 河 水 系 , 这 样 就 构 建 了 水 利 自 然 对 其他(OTH) 80
— 954 —