Page 72 - 2021年第52卷第8期
P. 72
据库中应用较为普及的 Neo4j 数据库 [27] ,数据的存储包含节点和关系两种基本类型,节点通过定义的
关系连接,形成关系网络结构。
(3)应用层:基于构建的知识图谱首先可提供可视化展示与关联查询等应用,考虑到在水利综合
知识图谱展示中存在大量的知识维度,本研究依据力导向图原理,基于图数据库和 D3.js(Data-Driv⁃
en Document)技术实现水利知识图谱的可视化展示,提高图谱的展示效率,同时也便于对不同水利对
象进行聚类;此外,随着水利实体的扩充和实体关系的丰富,还可提供基于图谱的知识问答、水利
事件的成因溯源等知识应用。
3.2 水利综合知识图谱关键技术
(1)水利实体识别。在知识图谱中,独立存在的事物(对象或概念)被称为实体,并由“实体-关
系-实体”三元组的形式构成知识图谱的基本单
元。对于结构化的水利实体,可基于数据表将关
系型数据直接转换为三元组。在对非结构化文本
进行水利实体识别时,需要将实体识别转化为序
列标注问题进行研究。因此选择双向长短期记忆
神 经 网 络(Bi-directional Long Shot-Term Memory
Neural Network, BiLSTM)与 条 件 随 机 场(Condi⁃
tional Random Fields,CRF)相结合的方法来识别
水利实体(图 3),并在分词处理时选择基于字词
向量相结合的方法。BiLSTM 模型具有强大的非
线性拟合及序列建模能力,能够捕捉较长的上下
图 3 水利实体识别模型示意
文 信 息 。 CRF 是 常 用 于 标 注 问 题 的 统 计 学 习 模
型,尤其在数据规模较小时具备较好的识别效果。将 BiLSTM 与 CRF 结合用于命名实体识别,可充分
综合各自的优点,利用 BiLSTM 模型挖掘文本中的特征信息,再将结果输入 CRF 模型进行序列标注。
该方法由 Lample 等 [28] 提出,并在多种测试数据集上取得了比统计模型更优的效果 [29] 。
本研究中,水利实体的识别语料主要是非结构化的水网对象描述信息。首先基于语料样本制定
了标注集,对样本序列中每个元素按照水利特征定义标签,并基于此对预处理后的非结构化的水利
文本进行标注,确定文本中词的边界,为实体识别确定分类特征。然后利用 BiLSTM 模型进行训练,
通过保存整句的前后文信息来提取句子特征,将文本中前后向的隐藏态结果进行结合。最后将 BiL⁃
STM 的模型输出传递给 CRF 作为输入,形成 BiLSTM- CRF 结构,利用上下文信息进行序列标注。在
模型训练中使用了基于字词向量结合的方法,使用自动获取的词典来匹配句子,对输入字符序列和
所有潜在词汇进行编码。
(2)水利实体关系抽取。关系抽取的目标是从非结构化的文本数据中,提取出实体之间的关系,
本研究采用基于模式匹配和共现网络分析相结合的方法对水利实体间的关系进行抽取。
模式匹配法是运用语言学知识,根据水利实体特征构建基于语词、词性或语义的实体关系模
式,再将水利实体文本与模式进行匹配的关系抽取方法。在抽取过程中,首先根据水利语料样本构
建实体间关系的表达方式,如为了表达河流与地区间的“流经”关系,可构建出[河流名称]流经[地区
名称]的关系模式;在利用预处理后的其他文本进行实体关系抽取时,可基于该模式匹配“黄河流经
河南省”并从中抽取出自然对象“黄河”与社会对象“河南省”之间的流经关系。水利实体间的关系模板
示例如图 4 所示。
基于共现网络分析的方法,是通过构建共现矩阵来确定实体间的关系,其基本假定是关系紧密
的实体会在文本的多个片段中同时出现。首先基于统计的方法抽取各水利实体在文本中出现的次
数,然后分析不同实体在文本中共现的比例,当两个实体共同出现的比例大于某个阈值时,认为这
两个实体间存在某种关系。实体间的关系可基于实体的类型进行定义,如河流和地区之间是流经的
关系,机构与河流之间的管辖的关系等(图 5)。
— 952 —