Page 92 - 2024年第55卷第1期
P. 92
(2) “水文要素” “评价指标” “计算时段类型” 这三类实体的性能提升相对较小。这可能是由于
这些类别在初始训练集中已经有较多的样本进行学习,且其语义特征较为明显,增量训练带来的影响
不大,或者说模型已经趋于这些类别的性能上限;而对于 “水文站点” 和 “水文模型” 这两类实体,
增量训练带来了较大的性能提升。究其原因,或许原训练集中这两类实体的样本数量相对较少,加之
其特征复杂,导致 BERT模型在识别这两类实体时的性能未能得到充分的发挥。在新增的 326篇文档
中,这两类实体的出现频率得到了提升,使模型有更多的机会去学习和理解这些实体,进而提高了对
这两类实体的识别性能。在细化的角度上,原训练集的数据可能未能涵盖这两类实体的全部特性,而
新增的训练数据则为模型展示了更全面的实体特征和语境信息,更丰富的数据表现形式有利于模型更
好地掌握并识别这两类实体。
( 3)与多策略结合的方法相比,尽管 BERT模型在增量训练后的性能有所提升,但在所有的实体
类型中,多策略结合的方法仍然表现更好。这是因为多策略结合方法融合了不同方法的优点,对复杂
的语言环境和各种类型的实体有更强的处理能力。针对具体的应用场景和需求,可以选择性地结合多
种策略,以进一步提升实体抽取的精度和鲁棒性,多策略的方法扩宽了实体抽取模型的应用潜力和
前景 [29] 。
4.3 图谱可视化 本文使用 ECharts可视化 neo4j数据。ECharts是一款基于 Javascript的数据可视化图
表库,提供直观、生动、可交互、可个性化定制的数据可视化图表。图 6示例了以辽河流域为中心的
图谱可视化效果,可了解到相关的水文模型、研究者及所在机构等对象,所属流域、模拟区域、继承
于等关系。如想进一步了解相关模型区域的模拟情况,可以继续通过双击目标实体扩展查询,并链接
到水网图谱或学科知识图谱,展示其相关实体关系。
图 6 图谱可视化示例
4.4 知识检索 将本研究构建的水文模型知识图谱集成至 “水利专业知识服务系统” 在线平台,在
系统检索栏中可进行水文模型相关知识的检索。
( 1)对模型实体的检索查询。针对模型实体进行检索查询。例如以 “VIC模型” 为检索词,查询
结果如图 7所示。表 6为部分检索结果示例。查询结果表明 VIC模型在黑河、黄河、滦河、珠江、漳
河以及柳江等流域均有应用。在黄河流域的兰州站断面模拟情况较为突出,效率系数在 0.86以上,相
对误差为 0.05。知识检索内容与知网检索文献中的实体关系相对应,能够帮助用户更快速的了解目标
— 8 7 —