Page 42 - 2024年第55卷第8期
P. 42

水  利  学  报

                2024年 8月                            SHUILI  XUEBAO                          第 55卷 第 8期

              文章编号:0559 - 9350(2024)08 - 0920 - 11

                          基于大语言模型辅助的防洪调度规则标签设计方法


                                                          3
                                                                     3
                           冯 钧    1,2 ,吕志鹏    1,2 ,范振东 ,孔 旭 ,陆佳民                1,2 ,周思源    1,2
                                      (1.河海大学 水利部水利大数据重点实验室,江苏 南京 211100;
                                          2.河海大学 计算机与软件学院,江苏 南京 211100;
                                      3.中国电建华东勘测设计研究院有限公司,浙江 杭州 311122)


                摘要:防洪调度规则的信息抽取对于防洪调度自动化具有重要意义,而标签体系设计在信息抽取任务中至关重要。
                一般的设计方式经常由于理解偏差和疏漏,导致设计出来的标签体系存在过度概括、不全面和不易区分等问题,这
                些问题被称为标签体系的非完美性。针对这一问题,本研究重点面向防洪调度文本中的规则抽取,提出了一种创新
                性的非完美标签优化方法,旨在改进文本信息抽取的标签设计方法。方法利用大语言模型进行辅助,通过标签细
                化、标签生成和标签更名等措施,来提高标签的准确性和表达能力。此外,本文还提出了一种针对数据集标签较多
                的实体关系三元组分组抽取方法。通过对实体关系三元组进行分组,并按照分组训练模型与识别结果,有效改善了
                数据集标签较多情况下模型的信息抽取效果。最终,研究利用 Neo4j形成了可视化的防洪调度知识图谱。本文研究
                成果为后续的防洪调度工作以及相关的知识抽取工作提供了基础资源,对防洪调度领域的知识抽取进行了探索。
                关键词:知识抽取;标签设计;防洪调度;知识图谱;自然语言处理
                中 图 分 类 号 : T P 3 9 1                                    doi:10.13243?j.cnki.slxb.20230643
                                 文献标识码:A

              1 研究背景


                  防洪调度是指根据实时或预报的水情,科学地运用防洪工程或防洪系统中的设施,有计划地调控
              洪水,使防洪保护对象免受或减轻洪灾损失的水利管理工作                             [1 - 2] 。为了实现防洪调度的智能化和自动
              化,构建一个知识图谱是一种有效的方法                    [3] 。在防洪调度知识图谱中,可以将水文气象数据、水利设
              施、洪水预测模型等相关信息进行关联,以支持洪水预警、决策和调度等应用,而从非结构化文本中
              进行实体和关系抽取则是构建知识图谱的重要步骤                        [4 - 5] 。
                  在实体和关系抽取领域,标签设计被认为是任务成功的关键要素之一。传统的纯手工标签设计通
              常会存在对细粒度判断不精确导致的过度概括、对本体理解不完整导致的不全面性以及标签设计的过
              于相似而导致的不易区分性,这使得标签设计处于非完美状态                              [6] 。
                  这一问题在各类规则文本中体现地尤为明显。例如,在水利工程领域中,存在有大量的防洪调度文
              本。这些文本通过指导在洪水过程中,水库、水闸、蓄滞洪区等水利设施的调节方式,来减轻洪水对人
              类和环境造成的危害。近年来,许多研究致力于利用知识图谱的方法来格式化提取和组织与水利相关的
              信息,以支持决策制定和调度执行                [3 - 4] 。然而,调度规则具有较强的区域属性,在不同流域和地区存在
              差异,表现为不同的模式和习惯用语。这种区域属性使得相关研究者经常需要针对区域定制不同的标签。
              但这种方式由于其数据量相对较小,难以采用传统大数据的思路来整理大型数据集并设计统一的标签体系。


                 收稿日期:2023 - 10 - 19;网络首发日期:2024 - 08 - 13
                 网络首发地址:https:??link.cnki.net?doi?10.13243?j.cnki.slxb.20230643
                 基金项目:国家重点研发计划地球观测与导航重点专项(2021YFB3900601);国家自然科学基金青年项目(62306007);江苏省水
                         利科技项目( 2022002,2023044);水利部重大科技项目(SKS - 2022132)
                 作者简介:冯钧( 1969 - ),教授,主要从事水利信息化研究。E - mail:fengjun@hhu.edu.cn
                 通信作者:陆佳民(1983 - ),副教授,主要从事基于水利知识图谱的水利大数据融合研究。E - mail:jiamin.luu@hhu.edu.cn

                —  9 2  —
                     0
   37   38   39   40   41   42   43   44   45   46   47