Page 71 - 2021年第52卷第8期
P. 71

种要素无观测数据时,可根据该原理进行推求;各要素间也可以通过规律、方法发生关联,如根据
               地区人口、产值与地区用水量相关的规律,可将人口、产值与用水量等概念联系起来。
                   在涉水对象与水利学科知识之间存在事实类和认知类知识的关联。基于学科知识的领域分类,
               可以建立涉水对象的所属学科领域关系,如对于工程对象中大坝的实例(如“三峡大坝”),可以与水
               资源管理领域中的词条“坝”建立关联,基于此方法可构建涉水对象与学科知识间的对应关系。同时
               为实现水利综合知识的构建,还需解决多源异构水利数据间的融合问题,主要包括水利实体的融
               合、属性的融合及重名实体的消歧等。如多种数据同时描述了某个流域的水资源量信息,需通过属
               性融合来判断各数据来源的可信度,得到该流域合理的、可信度最高的水资源量数据。通过对多源
               异构水利数据的融合,使水网图谱和学科图谱有机融合,从而构建出水利综合知识图谱。



               3  水利知识图谱构建

               3.1  水利综合知识图谱构建框架               知识图谱可分为面向全领域的通用图谱(如 WorldNet、FreeBase 等)
               及面向各学科领域的垂直图谱(或行业图谱)两类。面向水利学科领域的知识图谱应属于垂直知识图
               谱,具有较强的领域特色,在数据采集上同时融合结构化的行业监测数据和非结构化、半结构化的
               百科数据、互联网数据等。本文基于水利专业知识定义各类水利对象与学科知识间的关系体系(图
               1),以结构化的高质量水利行业数据为基础抽取水利实体对象,并在此基础上从数据层、技术层和
               应用层等角度提出水利综合知识图谱构建方案(图 2),主要内容包括:
                  (1)数据层:对源数据进行采集和分类处理,包括结构化的水利行业关系型数据库导出数据、半
               结构化的网页数据、非结构化的文本数据等,作为水利实体和关系抽取的数据基础。
                  (2)技术层:通过自然言语处理、机器学习等技术从文本数据或图像数据中抽取相关实体,并将
               抽取的实体按照自然对象、工程对象和社会对象的维度进行划分,通过预定义的水网实体关系模
               型,抽取不同实体间的关系;基于水利学科分类及词条概念间的关系进行百科图谱的构建;在此基
               础上进行多源实体及跨域图谱的融合,包括本体对齐、以多源实体为基础的语义关联及属性合并、
               水利知识模型的综合等内容;最终将图谱表示成结构化形式并使用图数据库存储,本研究采用图数



































                                                 图 2  水利专业知识图谱构建方案

                                                                                               — 951  —
   66   67   68   69   70   71   72   73   74   75   76