Page 44 - 2024年第55卷第8期
P. 44
2.1 标签评分子模块 首先根据本体一一对应设计种子标签集,经过人工标注后得到初始的种子数
据集。然后,利用种子数据集训练生成一个用于实体和关系标签预测的微调模型,并利用其对测试
集进行标签预测。根据微调模型的结果计算出所 有基 于关 系 的 三元 组的 完整 度(Completeness)作为
评价指标。实体关系三元组的完整度即前后实体对都正确的关系的数量(具体要求为关系正确,并
且关系两边的实体内容和实体类型也识别正确的数量)除以标准结果中的实体关系对的数量,具体
公式如下:
Sum True(h,R,t)
Completeness = (1)
Sum Gold(h,R,t)
式中:h、t、R分别为头实体标签、尾实体标签、关系标签,三者以关系标签类型作为三元组的划分
依据;Sum 表示此类三元组识别正确的数量;Sum 则表示此类三元组在标准结果中的
True(h,R,t) Gold(h,R,t)
数量。
2.2 标签优化子模块 对于完整度较低的三元组,利用生成式大语言模型 chatGLM2 - 6B进行关系标
签的细化、内隐实体标签的生成以及提示关系标签的更名三类处理,并对每一次标签优化的结果进行
人工审核,得到新的标签集和数据集。利用标签修改后重新标注的数据集可以训练得到新的用于实体
关系标签抽取的微调模型,并进行下一轮迭代。最终得到一个本体表达度高、可靠性强的标签体系以
及一份质量较高的数据集。在下文中,我们通过[]表示实体标签,<>表示关系标签。
2.2.1 同名关系标签的细化 在本体映射得到标签后,可能会出现不同类型的头实体标签具有相同的
关系标签,导致在标签识别时出现头实体和尾实体匹配错误的现象。例如,[触发对象]和 [限制对
象]都有<控制要素>关系,导致可能会出现将[限制对象]的 <控制要素 >关系所对应的尾实体识别到
[触发对象]上。为此我们将这一类关系细分为多个关系,称为同名关系标签的细化,具体流程如图 2
所示。
图 2 关系标签的细化流程
若微调模型识别得到的一类三元组完整度低于阈值,且这些实体关系三元组的头实体类型不一
致,则将种子数据集中涉及此关系的三元组信息抽取出来。根据头实体类型的定语或首字母进行标签
的自动细化。例如,对于<控制要素>关系,它包含了三类头实体([触发对象]、[调度对象]、[限制
对象])。此时若模型识别得到的完整度低于阈值,并且种子数据集中此关系的三元组中包含三类不同
的头实体,则自动为此关系生成三个新的关系标签,即<控制要素(触发)>、<控制要素(调度)>、<控
制要素(限制) >,经过人工审核后用这三个标签替代了原来的标签。
2.2.2 内隐实体标签的生成 在标签设计时,部分标签在本体中并没有具体体现出来,但是在标注时
若不标注出来则无法完整描述本体的细节。例如,[控制要素]实体标签是直接映射得到的,但在实际
标注过程中,控制要素又包括洪水情况、降雨情况、测站信息等要素,仅用[控制要素]标签无法体现
出方案中的细节。为此利用大语言模型辅助的方法自动挖掘这些内隐实体标签,并以此丰富标签设计
的内容,具体流程如图 3所示。
若微调模型识别得到的一类三元组完整度低于阈值,且这些关系的头、尾实体类型唯一,则将种
子数据集中涉及到此关系的原句以及三元组信息抽取出来,并通过 chatGLM2 - 6B对这些尾实体文本进
行类型判断。具体实现方法如图 4所示,通过提供给 chatGLM2 - 6B预先编写好的 prompt,告知其需要
完成的任务,并提供适当的示例,使其能够完成尾实体文本的类型预测任务。根据 chatGLM2 - 6B判断
— 9 2 —
2