Page 48 - 2024年第55卷第8期
P. 48

性值])三元组作为数据层部分涉及数值文本的标注,在完整度的计算结果中也低于阈值,经过大语言
              模型的关系预测后,生成了新的关系标签,经过优化后的标签体系如表 2所示。
                                                   表 2 优化后标签三元组

                        头实体类型                        关系类型                            尾实体类型
                        方案触发时机                         触发                             调度方案
                        方案触发时机                         关联                             触发对象
                         调度方案                          调度                             调度对象
                         调度方案                          限制                             限制对象
                         调度方案                          保护                           防洪保护对象
                         调度方案                          采用                             控制方式
                         触发对象                      控制要素(触发)                     控制要素?预报信息?事件
                         控制方式                      控制要素(控制)                           控制要素
                         限制对象                      控制要素(限制)                           控制要素
                         控制要素                         最大值                              最大值
                         控制要素                         最小值                              最小值


              4.1.3 防洪调度方案数据集 本文所使用的数据来源于椒江、淠河等流域的 32个水库的调度规则数
              据。上述调度规则初始文本中存在着诸多信息的不规范问题,例如水利对象名称缺失、数值单位不规
              范、存在特殊符号、调度规则陈述不完整等。为此,针对上述问题进行了文本清洗,去除文本中的噪
              声和无用信息,使文本变得更加干净、规范和易于处理。
                  具体来说,在处理诸如 “下岸、牛头山水库” 一类水利对象名称缺失的问题时,采用了正则表达
              式和文本匹配的方法,将上述例子更改为 “下岸水库、牛头山水库”,实现了对完整名称的替换和补
              充。对于数值单位中存在中文、大小写不一致以及未采用上角标等形式不规范问题,统一将所有的单
              位替换为小写且带有上角标的规范形式。在数据集中,还有一些特殊符号,主要是在数据收集和 PDF
              文档识别过程中产生的乱码或错误。这些异常数据,全部将被删除。最后,对于调度规则陈述不完整
              的问题,尽管这类问题数据较少,但其形式相对统一。例如,“当……情况时,需要采用……;反之,
              采用……”。对于这类问题,补充了缺失的内容,并将补充后的完整规则单独列为一条调度规则。这
              些处理方式大大提高了数据集的质量和完整性。清洗后的数据集在质量上得到了显著提升,这不仅有
              助于提高信息抽取的准确性,也为后续的标签优化提供了更准确、更全面的数据基础。此外,清洗后
              的数据集更符合设计标签体系的需求,使得我们能够更准确地识别实体和关系,从而提高了标签设计
              的质量和效率。
                  本文使用 Doccano作为标注工具,其具有上传文本数据、自定义实体和关系标签、实现实体和关
              系标注以及导出标注结果的功能。根据优化后得到的标签设计,我们标注得到了适用于防洪调度领域
              的数据集,标注结果如图 10所示。















                                                  图 10 防洪调度方案标注示例
                  由于标注人员对于标签的理解差异,同一类文本内容可能会产生不同的标注结果。为此,在标注
              人员标注完成后需经具备专业知识的人员进行审核,以保证最终得到的标注结果真实可靠。

                —  9 2  —
                     6
   43   44   45   46   47   48   49   50   51   52   53