Page 67 - 2024年第55卷第9期
P. 67
全领域 KG并在此基础上对问答系统的开发进行了探索;周逸凡等 [8] 基于期刊文献构建了水文模型 KG
并提供模型检索与推荐的知识服务;许强等 [9] 以工程地质领域的滑坡为主要研究对象,构建了滑坡知
识体系并形成 KG,使该领域的概念知识及理论体系得到完善和拓展;Bertram等 [10] 研究如何从开放的
音乐流媒体平台导出数据源并建立 KG,在此基础上建立了 EARS系统以提高音乐推荐质量;Li等 [11]
构建了网络安全 领域 KG以 描述错 综复 杂 的网络安全 状况,同时 对 KG质 量 评 估 模 型 进 行 了 研 究;
Miao等 [12] 基于 KG设计了一种语义表示框架,使自主室内服务机器人在语义框架的指导下能更准确、
高效地完成任务;Zhu等 [13] 提出了一种基于 KG的多任务情感分析模型,能更全面地为人们提供句子
的情感信息;Xia等 [14] 构建了面向复杂工业设备维护的 KG并基于此进行了有关故障预测与方案推荐
的研究。
在水利工程领域中,目前也有一些针对 KG展开的研究,段浩等 [15] 综合大量水利知识构建了能实
现跨域查询与检索的水利领域 KG;刘雪梅等 [16] 构建了水利工程应急方案 KG并在此基础上提出了一
种应急方案智能生成方法;张军珲等 [17] 对面向数字孪生工程的水利 KG构建方法进行了探索并开发
了知识检索、预案自动生成等应用。当前这些研究,大多侧重于领域内的综合概念,知识内容全局
性较强。但是水利工程领域知识体系复杂,知识内容广泛而且存在众多分支,对于知识内容聚焦性
较强的分支领域研究较少。针对该问题,结合土石坝在大坝险情防治中的主体地位,本文选取水利
工程众多分支领域中的土石坝险情领域作为研究对象,运用本体思想和自然语言处理( NaturalLan
guageProcess,NLP)技术对该领域 KG的构建展开研究,以土石坝险情为核心,围绕险情类型、险
情原因和险情措施从多源异构数据中抽取知识,以利决策,为土石坝安全、长效运行提供坚实的理
论基础。
2 土石坝险情知识图谱构建流程
2.1 土石坝险情知识图谱构建方法 KG通常由模式层和数据层组成,其中模式层为抽象概念,数据
层为具体实例,两者通过相互关系形成语义表达丰富的网状知识结构。在本研究的 KG结构设计中,
模式层以土石坝险情为中心概念,以险情类型、险情原因、险情措施三类模式进行拓展,形成 KG的
“骨架”;数据层为与土石坝险情相关的知识内容,比如具体的险情原因、险情措施等,填充 KG的
“血肉”。
KG的构建方法通常有三种:自顶向下、自底向上以及两者相结合 [18] 。自顶向下的方法蕴含本体
的思想,首先确定领域顶层概念,进而对其进行逐级划分,细化不同概念包含的子类以及子类具有的
属性和关系;自底向上的方法首先从语料库中抽取实体,总结为底层概念,进而逐级向上归纳。其
中,自顶向下法概念严谨,层次结构明显,但十分依赖人工劳动且更新困难;自底向上法更新快捷且
面对大量数据更有优势,但在逻辑架构上规范性较差,容易出现遗漏。因此本文采用结合二者优点的
混合法来构建土石坝险情 KG。对于模式层,采用自顶向下法构建土石坝险情领域相关本体库,形成
KG的概念框架并为知识抽取提供语义信息;对于数据层,采用 NLP技术从语料库中提取知识实体并
映射到模式层相关概念中,丰富 KG的具体内容。
2.2 土石坝险情知识图谱构建基本流程 土石坝险情 KG的构建流程主要分为模式层、数据层的构建
与存储,在此基础上实现 KG的可视化表达与检索。模式层的主要任务为构建土石坝险情相关本体库,
如结构本体、过程本体、环境本体与材料本体等。构建数据层的具体步骤分为数据预处理、知识抽
取、语义对齐以及数据存储。首先将多源异构数据划分为半结构数据和非结构数据,对于前者采用基
于规则的方法进行提取,对于后者则先按一定格式处理为结构数据,再建立规则进行提取。其次,将
提取的数据映射到相关概念中,建立模式层与数据层之间的联系以形成层级知识结构。最后,所有提
取到的知识内容以三元组(实体,关系?属性,实体)形式存储,利用开源的图数据库 Neo4j实现直观表
达并通过查询语言进行检索。土石坝险情 KG的构建流程如图 1所示。
7
— 1 0 2 —