Page 44 - 2024年第55卷第8期

P. 44

２．１标签评分子模块首先根据本体一一对应设计种子标签集，经过人工标注后得到初始的种子数
据集。然后，利用种子数据集训练生成一个用于实体和关系标签预测的微调模型，并利用其对测试
集进行标签预测。根据微调模型的结果计算出所有基于关系的三元组的完整度（Ｃｏｍｐｌｅｔｅｎｅｓｓ）作为
评价指标。实体关系三元组的完整度即前后实体对都正确的关系的数量（具体要求为关系正确，并
且关系两边的实体内容和实体类型也识别正确的数量）除以标准结果中的实体关系对的数量，具体
公式如下：
ＳｕｍＴｒｕｅ（ｈ，Ｒ，ｔ）
Ｃｏｍｐｌｅｔｅｎｅｓｓ＝（１）
ＳｕｍＧｏｌｄ（ｈ，Ｒ，ｔ）
式中：ｈ、ｔ、Ｒ分别为头实体标签、尾实体标签、关系标签，三者以关系标签类型作为三元组的划分
依据；Ｓｕｍ表示此类三元组识别正确的数量；Ｓｕｍ则表示此类三元组在标准结果中的
Ｔｒｕｅ（ｈ，Ｒ，ｔ）Ｇｏｌｄ（ｈ，Ｒ，ｔ）
数量。
２．２标签优化子模块对于完整度较低的三元组，利用生成式大语言模型ｃｈａｔＧＬＭ２－６Ｂ进行关系标
签的细化、内隐实体标签的生成以及提示关系标签的更名三类处理，并对每一次标签优化的结果进行
人工审核，得到新的标签集和数据集。利用标签修改后重新标注的数据集可以训练得到新的用于实体
关系标签抽取的微调模型，并进行下一轮迭代。最终得到一个本体表达度高、可靠性强的标签体系以
及一份质量较高的数据集。在下文中，我们通过［］表示实体标签，＜＞表示关系标签。
２．２．１同名关系标签的细化在本体映射得到标签后，可能会出现不同类型的头实体标签具有相同的
关系标签，导致在标签识别时出现头实体和尾实体匹配错误的现象。例如，［触发对象］和［限制对
象］都有＜控制要素＞关系，导致可能会出现将［限制对象］的＜控制要素＞关系所对应的尾实体识别到
［触发对象］上。为此我们将这一类关系细分为多个关系，称为同名关系标签的细化，具体流程如图２
所示。

图２关系标签的细化流程

若微调模型识别得到的一类三元组完整度低于阈值，且这些实体关系三元组的头实体类型不一
致，则将种子数据集中涉及此关系的三元组信息抽取出来。根据头实体类型的定语或首字母进行标签
的自动细化。例如，对于＜控制要素＞关系，它包含了三类头实体（［触发对象］、［调度对象］、［限制
对象］）。此时若模型识别得到的完整度低于阈值，并且种子数据集中此关系的三元组中包含三类不同
的头实体，则自动为此关系生成三个新的关系标签，即＜控制要素（触发）＞、＜控制要素（调度）＞、＜控
制要素（限制）＞，经过人工审核后用这三个标签替代了原来的标签。
２．２．２内隐实体标签的生成在标签设计时，部分标签在本体中并没有具体体现出来，但是在标注时
若不标注出来则无法完整描述本体的细节。例如，［控制要素］实体标签是直接映射得到的，但在实际
标注过程中，控制要素又包括洪水情况、降雨情况、测站信息等要素，仅用［控制要素］标签无法体现
出方案中的细节。为此利用大语言模型辅助的方法自动挖掘这些内隐实体标签，并以此丰富标签设计
的内容，具体流程如图３所示。
若微调模型识别得到的一类三元组完整度低于阈值，且这些关系的头、尾实体类型唯一，则将种
子数据集中涉及到此关系的原句以及三元组信息抽取出来，并通过ｃｈａｔＧＬＭ２－６Ｂ对这些尾实体文本进
行类型判断。具体实现方法如图４所示，通过提供给ｃｈａｔＧＬＭ２－６Ｂ预先编写好的ｐｒｏｍｐｔ，告知其需要
完成的任务，并提供适当的示例，使其能够完成尾实体文本的类型预测任务。根据ｃｈａｔＧＬＭ２－６Ｂ判断

— ９２ —
２

39 40 41 42 43 44 45 46 47 48 49