Page 67 - 2024年第55卷第9期
P. 67

全领域 KG并在此基础上对问答系统的开发进行了探索;周逸凡等                              [8] 基于期刊文献构建了水文模型 KG
              并提供模型检索与推荐的知识服务;许强等                     [9] 以工程地质领域的滑坡为主要研究对象,构建了滑坡知
              识体系并形成 KG,使该领域的概念知识及理论体系得到完善和拓展;Bertram等                                 [10] 研究如何从开放的
              音乐流媒体平台导出数据源并建立 KG,在此基础上建立了 EARS系统以提高音乐推荐质量;Li等                                           [11]
              构建了网络安全 领域 KG以 描述错 综复 杂 的网络安全 状况,同时 对 KG质 量 评 估 模 型 进 行 了 研 究;
              Miao等  [12] 基于 KG设计了一种语义表示框架,使自主室内服务机器人在语义框架的指导下能更准确、
              高效地完成任务;Zhu等           [13] 提出了一种基于 KG的多任务情感分析模型,能更全面地为人们提供句子
              的情感信息;Xia等        [14] 构建了面向复杂工业设备维护的 KG并基于此进行了有关故障预测与方案推荐
              的研究。
                  在水利工程领域中,目前也有一些针对 KG展开的研究,段浩等                              [15] 综合大量水利知识构建了能实
              现跨域查询与检索的水利领域 KG;刘雪梅等                    [16] 构建了水利工程应急方案 KG并在此基础上提出了一
              种应急方案智能生成方法;张军珲等                  [17] 对面向数字孪生工程的水利 KG构建方法进行了探索并开发
              了知识检索、预案自动生成等应用。当前这些研究,大多侧重于领域内的综合概念,知识内容全局
              性较强。但是水利工程领域知识体系复杂,知识内容广泛而且存在众多分支,对于知识内容聚焦性
              较强的分支领域研究较少。针对该问题,结合土石坝在大坝险情防治中的主体地位,本文选取水利
              工程众多分支领域中的土石坝险情领域作为研究对象,运用本体思想和自然语言处理( NaturalLan
              guageProcess,NLP)技术对该领域 KG的构建展开研究,以土石坝险情为核心,围绕险情类型、险
              情原因和险情措施从多源异构数据中抽取知识,以利决策,为土石坝安全、长效运行提供坚实的理
              论基础。


              2 土石坝险情知识图谱构建流程


              2.1 土石坝险情知识图谱构建方法 KG通常由模式层和数据层组成,其中模式层为抽象概念,数据
              层为具体实例,两者通过相互关系形成语义表达丰富的网状知识结构。在本研究的 KG结构设计中,
              模式层以土石坝险情为中心概念,以险情类型、险情原因、险情措施三类模式进行拓展,形成 KG的
              “骨架”;数据层为与土石坝险情相关的知识内容,比如具体的险情原因、险情措施等,填充 KG的
              “血肉”。
                  KG的构建方法通常有三种:自顶向下、自底向上以及两者相结合                                [18] 。自顶向下的方法蕴含本体
              的思想,首先确定领域顶层概念,进而对其进行逐级划分,细化不同概念包含的子类以及子类具有的
              属性和关系;自底向上的方法首先从语料库中抽取实体,总结为底层概念,进而逐级向上归纳。其
              中,自顶向下法概念严谨,层次结构明显,但十分依赖人工劳动且更新困难;自底向上法更新快捷且
              面对大量数据更有优势,但在逻辑架构上规范性较差,容易出现遗漏。因此本文采用结合二者优点的
              混合法来构建土石坝险情 KG。对于模式层,采用自顶向下法构建土石坝险情领域相关本体库,形成
              KG的概念框架并为知识抽取提供语义信息;对于数据层,采用 NLP技术从语料库中提取知识实体并
              映射到模式层相关概念中,丰富 KG的具体内容。
              2.2 土石坝险情知识图谱构建基本流程 土石坝险情 KG的构建流程主要分为模式层、数据层的构建
              与存储,在此基础上实现 KG的可视化表达与检索。模式层的主要任务为构建土石坝险情相关本体库,
              如结构本体、过程本体、环境本体与材料本体等。构建数据层的具体步骤分为数据预处理、知识抽
              取、语义对齐以及数据存储。首先将多源异构数据划分为半结构数据和非结构数据,对于前者采用基
              于规则的方法进行提取,对于后者则先按一定格式处理为结构数据,再建立规则进行提取。其次,将
              提取的数据映射到相关概念中,建立模式层与数据层之间的联系以形成层级知识结构。最后,所有提
              取到的知识内容以三元组(实体,关系?属性,实体)形式存储,利用开源的图数据库 Neo4j实现直观表
              达并通过查询语言进行检索。土石坝险情 KG的构建流程如图 1所示。


                     7
                —  1 0 2 —
   62   63   64   65   66   67   68   69   70   71   72