Page 46 - 2024年第55卷第8期
P. 46
2.2.4 人工审核的方法和标准 大模型的生成能力是通过大模型辅助进行标签设计的基础,然而大模
型的生成结果具有一定的不稳定性以及存在幻觉问题,缺乏大量的专业知识。因此,需要通过人工审
核的方式来确保大模型提供的结果合理有效,并筛选掉不合理的标签优化内容或保留必须的标签内
容。例如,在 为短 句 “天气 预报有 暴雨” 生成 标签后得 到 了 三个 候 选 标签 “预 警,信 息,预 报 信
息”,然而 “预警” 和 “信息” 的含义过于广泛,无法精确的表示短句的含义,容易与其他类型的标
签混淆,因此经过人工审核后选择了 “预报信息” 作为新的标签。而在为 “控制要素” 标签进行标
签优化时发现,优化结果中的 “自然属性,特征,物理属性” 标签失去了调度规则下的背景知识,无
法很好的表达本体内容,因此我们选择保留了 “控制要素” 标签。人工审核的结果必须是对应背景
的、依附本体的、不易混淆的,在这之上,通过最终对应标签的识别精确率来评定审核结果,若精确
率降低,则重新进行人工审核或重新进行标签优化。
3 实体关系多标签分组抽取方法
如上节所述,为了能够充分表达本体中的信息并提升模型识别的效果,我们对标签进行了增加和
修改。但在具体实现过程中发现,当设计的标签越来越多时,模型的识别效果随着需要处理的标签数
量变多也随之下降。为此本文提出以关系为基础,将所有标签按照实体关系三元组的形式分为多个小
组,并单独为每一个小组的标签进行模型训练和评估的方法。如图 7所示,包括标签分组、模型微
调、分组抽取的结果组合三个步骤。
图 7 多标签分组抽取方法
在进行分组的过程中我们发现,若将每类关系三元组都单独分为一组,例如将<调度>、<限制>、
<保护>关系分为三个组,每组所包含的数据量都较小,在这种情况下训练得到的微调模型未能充分学
习标签的特征。并且我们还意识到,部分分组的内容实际是类似的,例如<控制要素(触发)>、<控制
要素(调度) >、<控制要素(限制)>这三类关系,这类过多的分组导致了冗余的模型训练。为了能够保
证分组之间的独立性以及分组内的关联性,并使得每组的训练数据充分,按照以下步骤完成分组。
首先,选择某个实体标签作为头实体,并将其所有的直接关系构成的三元组作为一组。例如实体
标签[方案触发时机]具有<触发>和<关联>两个关系标签,则将它们分为一组。经过直接实体关系分
组后,实际上形成了多个以头实体为中心的三元组簇。
随后,将这些三元组簇中,细化关系标签前源自同一个关系标签的三元组簇合并为一组。例如,
<控制要素(触发)>、<控制要素(调度)>、<控制要素(限制)>这三类关系标签都是由同一个关系标签
[控制要素]转化来的,将他们所涉及的标签三元组分为同一组。
最后,针对每一组标签三元组都单独进行预训练模型的微调,使其专门用于抽取这一组的实体和
关系。在抽取一个完整方案时,将输入数据交给每一个分组微调模型,并获得他们的输出。然后将每
一组的输出进行组合,得到一段文本的完整信息抽取结果。这种分组抽取的方法可以使分组后的微调
4
— 9 2 —