Page 44 - 2024年第55卷第8期
P. 44

2.1 标签评分子模块 首先根据本体一一对应设计种子标签集,经过人工标注后得到初始的种子数
              据集。然后,利用种子数据集训练生成一个用于实体和关系标签预测的微调模型,并利用其对测试
              集进行标签预测。根据微调模型的结果计算出所 有基 于关 系 的 三元 组的 完整 度(Completeness)作为
              评价指标。实体关系三元组的完整度即前后实体对都正确的关系的数量(具体要求为关系正确,并
              且关系两边的实体内容和实体类型也识别正确的数量)除以标准结果中的实体关系对的数量,具体
              公式如下:
                                                              Sum True(h,R,t)
                                                 Completeness =                                         (1)
                                                             Sum Gold(h,R,t)
              式中:h、t、R分别为头实体标签、尾实体标签、关系标签,三者以关系标签类型作为三元组的划分
              依据;Sum           表示此类三元组识别正确的数量;Sum                         则表示此类三元组在标准结果中的
                        True(h,R,t)                                Gold(h,R,t)
              数量。
              2.2 标签优化子模块 对于完整度较低的三元组,利用生成式大语言模型 chatGLM2 - 6B进行关系标
              签的细化、内隐实体标签的生成以及提示关系标签的更名三类处理,并对每一次标签优化的结果进行
              人工审核,得到新的标签集和数据集。利用标签修改后重新标注的数据集可以训练得到新的用于实体
              关系标签抽取的微调模型,并进行下一轮迭代。最终得到一个本体表达度高、可靠性强的标签体系以
              及一份质量较高的数据集。在下文中,我们通过[]表示实体标签,<>表示关系标签。
              2.2.1 同名关系标签的细化 在本体映射得到标签后,可能会出现不同类型的头实体标签具有相同的
              关系标签,导致在标签识别时出现头实体和尾实体匹配错误的现象。例如,[触发对象]和 [限制对
              象]都有<控制要素>关系,导致可能会出现将[限制对象]的 <控制要素 >关系所对应的尾实体识别到
              [触发对象]上。为此我们将这一类关系细分为多个关系,称为同名关系标签的细化,具体流程如图 2
              所示。













                                                   图 2 关系标签的细化流程

                  若微调模型识别得到的一类三元组完整度低于阈值,且这些实体关系三元组的头实体类型不一
              致,则将种子数据集中涉及此关系的三元组信息抽取出来。根据头实体类型的定语或首字母进行标签
              的自动细化。例如,对于<控制要素>关系,它包含了三类头实体([触发对象]、[调度对象]、[限制
              对象])。此时若模型识别得到的完整度低于阈值,并且种子数据集中此关系的三元组中包含三类不同
              的头实体,则自动为此关系生成三个新的关系标签,即<控制要素(触发)>、<控制要素(调度)>、<控
              制要素(限制) >,经过人工审核后用这三个标签替代了原来的标签。
              2.2.2 内隐实体标签的生成 在标签设计时,部分标签在本体中并没有具体体现出来,但是在标注时
              若不标注出来则无法完整描述本体的细节。例如,[控制要素]实体标签是直接映射得到的,但在实际
              标注过程中,控制要素又包括洪水情况、降雨情况、测站信息等要素,仅用[控制要素]标签无法体现
              出方案中的细节。为此利用大语言模型辅助的方法自动挖掘这些内隐实体标签,并以此丰富标签设计
              的内容,具体流程如图 3所示。
                  若微调模型识别得到的一类三元组完整度低于阈值,且这些关系的头、尾实体类型唯一,则将种
              子数据集中涉及到此关系的原句以及三元组信息抽取出来,并通过 chatGLM2 - 6B对这些尾实体文本进
              行类型判断。具体实现方法如图 4所示,通过提供给 chatGLM2 - 6B预先编写好的 prompt,告知其需要
              完成的任务,并提供适当的示例,使其能够完成尾实体文本的类型预测任务。根据 chatGLM2 - 6B判断

                —  9 2  —
                     2
   39   40   41   42   43   44   45   46   47   48   49