Page 90 - 2024年第55卷第1期

P. 90

齐，并划分评价指标级别，实现指标名称的标准化。与水文模型类似，同样采用词汇映射表的方法，
将文献中出现的同义评价指标整理对齐后更新。以相对误差为例，表４为评价指标对齐分级示例。
表３部分水文模型词汇表示例

标准名称文献中出现的同义名称
ＳＷＡＴ模型ＳＷＡＴＳＷＡＴ水文模型ｓｏｉｌａｎｄｗａｔｅｒａｓｓｅｓｓｍｅｎｔｔｏｏｌ流域ＳＷＡＴ模型Ｓｏｉｌ＆ＷａｔｅｒＡｓｓｅｓｓｍｅｎｔＴｏｏｌ
ＶａｒｉａｂｌｅＩｎｆｉｌｔｒａｔｉｏｎＣａｐａｃｉｔｙＶＩＣ可变下渗能力可变下渗容量大尺度陆面水文ＶＩＣｄｉｓｔｒｉｂｕｔｅｄ
ＶＩＣ模型
Ｍａｃｒｏｓｃａｌｅｈｙｄｒｏｌｏｇｙｍｏｄｅｌ水文模型水文模型（ＶＩＣ）模型ＶＩＣ模型ｈｙｄｒｏｌｏｇｉｃａｌｍｏｄｅｌ
新安江模型三水源新安江模型ＸｉｎａｎｊｉａｎｇＭｏｄｅｌＸＡＪ模型新安江水文模型Ｘｉｎ’ａｎｊｉａｎｇｈｙｄｒｏｌｏｇｙｍｏｄｅｌ
ＮＡＭ模型ＮＡＭＨｙｄｒｏｌｏｇｉｃａｌＭｏｄｅｌＮＡＭ降雨径流模型（ＮＡＭ）ＮＡＭｍｏｄｅｌ流域水文模型ＮＡＭ

表４评价指标对齐分级示例
一级指标同义指标二级指标二级同义指标
平均相对误差相对误差平均值、相对误差均值
相对误差相对偏差、相对误差Ｒｅｌａｔｉｖｅｅｒｒｏｒ?％、相对偏差ＲＢ、相比误差…… 相对误差最大值最大相对误差
相对误差最小值相对误差最小值

３．５知识存储Ｎｅｏ４ｊ是目前主流的属性图数据库之一，采用的是基于节点和关系的数据模型，每个
节点代表一个实体或概念，每条边代表两个实体之间的关系，通过节点和边之间的连接构成一个图形
化存储结构，这种结构极大地方便了复杂关系的表示和查询，且有良好的伸缩性与灵活性，具有较高
的用户认可度。根据水文模型知识图谱对关系查询、快速响应与持续扩展的要求，本研究选择Ｎｅｏ４ｊ
图数据库进行知识存储与更新管理。
知识抽取与融合的结果以篇论文为单位存储在表格中，每一行为一篇文章的抽取结果，表头代表
了抽取的实体类型，如 “论文名字” “作者” “水文模型” 等。每个单元格内的数据以字符串列表的
形式存储，可包含多个条目，其中 “计算时段” 和 “指标数值实体” 嵌套了字典来描述键值对
信息。
本研究使用ｐｙ２ｎｅｏ库对Ｎｅｏ４ｊ数据库进行操作，包括节点关系的创建、数据查询、数据更新等。
ｐｙ２ｎｅｏ是Ｐｙｔｈｏｎ编程语言的Ｎｅｏ４ｊ图数据库驱动程序，它提供了一个Ｐｙｔｈｏｎｉｃ的ＡＰＩ，用于连接Ｎｅｏ４ｊ
数据库，与数据库进行交互。
（１）节点关系创建。使用ｐｙ２ｎｅｏ库的Ｇｒａｐｈ类创建一个数据库连接；遍历处理后的每一行表格数
据创建节点关系，使用Ｎｏｄｅ类创建一个新的节点，并使用ｇｒａｐｈ．ｃｒｅａｔｅ（）将其添加到数据库中；使用
Ｒｅｌａｔｉｏｎｓｈｉｐ（ａ＿ｎｏｄｅ，ｒｅｌａｔｉｏｎ，ｂ＿ｎｏｄｅ，ｋｗａｒｇｓ）来创建ａ＿ｎｏｄｅ与ｂ＿ｎｏｄｅ之间的关系。
（２）数据库更新。构建实体关系补充与数据库更新工具。在采集新数据之后，通过ｐｙ２ｎｅｏ连接数
据库，查询图数据库以判断新实体和关系是否已存在，将新的实体和关系进行入库保存，并通过
ｕｐｄａｔｅ（）方法对已存数据进行更新，完成自动抽取、融合、入库的知识更新流程。

４图谱构建实例与应用

４．１数据处理本文训练数据来源于ＣＮＫＩ中国期刊全文数据库，设置检索主题为 “水文模型”，年
份范围为２００５—２０２２年，筛选后得到１２０９篇水文模型领域期刊论文。
通过ＰＤＦ解释器将期刊解析成文本数据，利用ｊｉｅｂａ工具对分词去停用词，并结合模式匹配的方
式对解析后的文本过滤清洗。通过分句算法，使文本转换为规则句子，为保证实体识别的准确性，截
断超长句子，并通过实体匹配的方式使包含实体的句子和非包含实体的句子满足均匀分布，得到处理
后的规则句子集。用ＢＭＯＥＳ标注法对句子进行人工标注。将标注好的句子集转换成输入模型的序列

— ８５ —

85 86 87 88 89 90 91 92 93 94 95