Page 74 - 2021年第52卷第8期
P. 74

以上基于多源数据进行的水利知识融合,需对从异构数据中抽取的知识图谱元数据进行语义集
               成。在本研究中,语义集成采用了基于贝叶斯决策理论提出的最小风险映射模型(Risk Minimization
                                             [30]
               based Ontology Mapping,RiMOM) ,将决策行为定义为两类本体(包括概念、关系、实例等)中不同
               元素的所有可能映射,分析水利本体间映射的风险最小决策行为,其主要流程包括候选映射选择、
               多策略的映射发现、多策略合并以及映射发现机制,映射发现过程迭代运行直到不能再发现新的映
               射为止,最终得到两类本体中元素间的映射关系。



               4  图谱构建实例及应用

               4.1  图谱抽取成果        以全国河流水系编码数据、行政区划数据、重要水利工程管理数据等关系型数
               据库为基础,基于本文方案构建水利综合知识图谱。并基于水利百科、论文及新闻数据对图谱的实
               体及关系数据进行补充。抽取的实体类型包括流域、水系、河流、湖泊、水电站、水库、大坝、机
               构、人员、文献、水利术语等,构建的实体关系包括水系-河流(所在水系)、河流-行政区域(所在地

               区)、文献-水利术语(研究领域)等,累计抽取水利实体超过 136 万个(表 2),构建实体关系超过 300
               万条(表 3)。因不同实体对象的粒度不同,基于实体抽取的关系与实体的数量上存在一定差异。


                      表 2  水利专业知识图谱实体统计                                表 3  水利专业知识图谱关系统计
                  实体类型    实体数量(个)      实体类型      实体数量(个)          关系类型      关系数量(条)      关系类型     关系数量(条)
                    水系        71     水利管理机构         2585          水系-河流         2240    人员-机构       193902
                    河流        3615   水利研究机构        93726         湖泊-行政区         3102    机构-机构        1854
                    湖泊        2980   水利管理人员         317           湖泊-河流         336    文献-水利术语      1284807
                    流域        11     水利科研人员        169537         水库-河流         2916   河流-行政区        7133
                    水库       48554      行政区        709959        水电站-河流         10     水电站-行政区       980
                    大坝        27        主题词        72888        行政区-行政区        709926   文献-人员       320854
                   水电站        1106       文献        325709     水利术语-水利术语        279382

                   关于实体识别准确性的评价,采用 F 值来评估图谱构建中对实体标注成果的一致性                                      [31] ,其计算
               表达式为:
                                                         F =  2 × P × R
                                                              P + R
               式中:P 为准确率,是识别正确实体数与识别实体数之比;R 为召回率,定义为识别正确实体数与总
               实体数之比。F 值越大,表明标注的一致性越好。
                   按照知识图谱构建中语料分割的常用方法                    [32] ,将实体识别语料按 8∶1∶1 的比例生成训练集、验
               证集和测试集,对 9 类实体数据进行了标注测试,各类实体 F 值的统计结果如表 4 所示。测试结果表
               明,抽取的水利实体对象的标注准确率均在 80%以上,可以认为语料的一致性是可信赖的                                         [33] ,实体
               识别的结果具有较高准确性。                                               表 4  各类实体类型标注准确率
               4.2  水网图谱结果展示           由于水网对象数量较多,
                                                                         实体类别               标注准确率/%
               本文以北京地区的各类水利水网对象进行图谱的展                                   大坝(DAM)                 85
               示(图 6)。北京市地处海河流域,海河流域同时又                                水电站(HYD)                 86
               流经天津、河北等省市,由此关联了流域与行政区                                   湖泊(LAK)                 88
               两 类 实 体 ; 北 京 地 区 有 北 海 、 团 城 湖 等 湖 泊 类 对                机构(ORG)                 81
                                                                        人名(PER)                 80
               象,还有潮白河、怀河等河流对象,由此将行政区
                                                                        水库(RES)                 85
               与 湖 泊 、 河 流 对 象 相 关 联 ; 这 些 河 流 和 湖 泊 , 在
                                                                         河流(RIV)                86
               海 河 流 域 中 又 分 属 于 不 同 的 水 系 , 如 北 海 属 于 海              水利术语(TER)                 81
               河 流 域 的 北 三 河 水 系 , 这 样 就 构 建 了 水 利 自 然 对                其他(OTH)                 80


                 — 954  —
   69   70   71   72   73   74   75   76   77   78   79