Page 39 - 2023年第54卷第6期
P. 39
混合知识表示方法,集成非结构化、半结构化、结构化知识,开发应急知识系统,提供自然灾害应急
辅助决策;Liu等 [13] 提出地质灾害应急响应的知识概念模型,在突发事件发生时能够智能获取并提供
所需要的应急知识,实现快速应急响应;Ni等 [14] 构建应急预案知识系统,为应急响应提供可靠信息;
Yang等 [15] 构建知识共现网络,分析了突发公共卫生事件应急管理的重要性。知识图谱作为一种语义
网络拥有极强的知识组织与表达能力,目前主要应用于自然灾害、地质灾害、公共卫生等特定应急管
理领域,虽然在水利领域已有初步应用 [16 - 17] ,但在水利应急管理中尚未应用。
为提高水利工程应急处置与管理的智能化水平,本文创建一种水利工程应急方案智能生成模式。
以南水北调中线工程为例,提出应急方案知识图谱本体模型,设计应急方案模板,结合不同水利工程
文本特点,采用与之适应的知识图谱和机器学习技术,构建南水北调中线工程应急方案领域知识图
谱,结合图谱检索与推理技术实现应急方案的智能生成。
2 相关技术方法
2.1 知识图谱构建过程 知识图谱构建过程一般包括知识建模 [18] 、抽取 [19 - 20] 、融合 [21] 、存储 [22 - 23]
四个阶段。知识建模即建立知识图谱的概念模式,是知识图谱的核心,主要有自顶向下和自底向上两
种构建方式。知识抽取是从数据源中抽取实体、关系、属性。知识融合是整合不同数据源中的信息,
得到规范统一的描述。知识存储将融合的实体、关系、属性存入图数据库,便于下游应用。
2.2 基于 BERT + BiLSTM+ CRF的实体识别模型 实体识别方法主要包含基于词典规则的方法 [24] 、
传统机器学习方法 [25] 以及基于深度学习的方法 [26] 。基于词典规则的实体识别模型识别速度快、准确
率高,但受限于词典规则、通用性不强,适用于小规模并且形式单一的数据,并且无法解决多词同义
问题。传统的单一机器学习模型准确率较低,难以在水利工程领域实际应用。本文基于 2019年 Devlin
提出的深度学习模型 BERT [27] ,BERT模型预训练于 Google的大规模通用中文语料库,通用语义信息
获取能力强,但水利领域语义信息获取效果差,而 BiLSTM+ CRF模型只需在较小量级的水利标注数据
内训练,即可获得水利领域语义信息。本文将两者结合,构建 BERT + BilSTM+ CRF模型识别险情文本
实体,通过微调训练,既能有效避免大量标注数据,又能获得较高的实体识别准确率。
2.3 实体对齐技术 实体对齐一般通过计算两个实体的相似度来完成。传统实体相似度计算主要基于
Jaccard算法 [28] ,准确率高但召回率低,并且词语缺乏语义信息。目前常用的实体相似度计算方法有
三种:其一是基于词典或某种分类体系,常见词典有 Hownet、Wordnet和同义词词林,这三种词典的
构造方法互不相同,但都局限于通用领域,难以解决水利巡检文本面临的专业领域性强以及大量同义
词现象;其二为基于上下文向量空间的统计方法,以 Google的 Word2Vec词语向量化工具为代表,将
词语映射到空间向量,通过计算向量距离来衡量相似度;最后一种是基于深度学习的方法,但其所需
语料库庞大,计算量与成本过高。本文设计基于 Word2Vec模型 [29] 的 Jaccard实体相似度算法,融合
巡检文本中的多类实体特征,实现实体对齐。
2.4 图谱推理技术 图谱推理中的规则推理亦称为本体逻辑的演绎推理,包含建立规则与做出推理两
部分,其可解释性强并且推理精度高。例如建立二跳推理规则 〈风险事件,对应控制措施,控制措施〉
〈控制措施,包含设备,设备〉推出为 〈风险事件,所需抢险设备,设备〉 并写入 cql查询语句中,即可
实现由图谱中存在的两个三元组 〈管涌,对应控制措施,在涌水口采用……〉 〈在涌水口采用……,包
含设备,编织袋砂石等……〉,推出一个未知三元组 〈管涌,所需抢险设备,编织袋砂石等……〉。
3 南水北调中线工程应急方案知识图谱构建
南水北调应急方案均为非结构化和半结构化文本,知识关联性弱,查询检索效率低,难以智能化
应用。为解决这些问题,需要构建南水北调中线工程应急方案领域知识图谱。领域知识图谱构建流程
如图 1。
— 6 6 7 —