Page 43 - 2024年第55卷第8期
P. 43
随着自然语言处理领域的不断进步,大语言模型(LargeLanguageModels,LLM)如 GTP - 3和 GPT - 4
已经成为这个领域的重要里程碑。这些模型基于 Transformer架构并利用了大量的文本数据进行训练,
能够理解和生成人类的语言。大语言模型具备的语言理解和强大的生成能力、零样本和少样本学习能
力以及大量的知识储备,使其能够像人一样辅助我们进行标签的设计 [7] 。在这一背景下,本文创新性
地提出了一种基于大语言模型辅助的非完美标签优化方法,旨在解决非完美标签设计的挑战。
当前针对实体和关系抽取共有两种研究路线:其一为基于规则的方法,是指使用预定义的规则来
捕获文本中所需的事实信息,但此类方法人工成本高、可移植性较差 [8 - 9] ;其二为通过机器学习来进
行信息抽取,具体表现为训练模型自动识别和抽取文本中的实体、关系和事件等信息 [10 - 11] 。与基于规
则的方法相比,机器学习方法可以从给定的句子中学习相关特征,而无需复杂的特征工程工作 [12 - 13] 。
上述研究对于从非结构化文本中进行实体和关系抽取提供了大量的经验和成果,但这些研究都要
求高质量的数据集作为基础。而当前研究中,对于领域知识图谱的构建研究主要集中于医学 [14] 、金
融 [15] 等领域,缺少针对防洪调度此类具有区域属性的领域的公开数据集以及标签设计。在传统的标签
分类工作中,标签被看作是没有语义信息的原子符号,忽略了标签文本内容的潜在知识 [16 - 17] 。2020
年,肖琳等 [18] 提出了基于标签语义注意力的多标签文本分类方法,他们注意到在文本分类任务中,标
签是文本且含有语义信息,有望利用标签的语义信息指导模型抽取重要信息并提升分类效果。
为此,本文从构建数据集着手,提出了一套基于大语言模型辅助的非完美标签优化方法,充分利
用标签中的语义信息构建高质量的标注数据集。而根据 Ma等 [19] 的发现,数据集中实体和关系标签的
规模在一定程度上影响模型的识别效果,考虑到标签优化后的规模增长,我们设计了实体关系多标签
分组的抽取办法,以减轻标签规模增长对模型识别效果的影响。最终,基于 Lu等 [20] 提出的统一结构
生成方法,本文进行了领域知识的信息抽取实验,并生成了防洪调度知识图谱。
2 大语言模型辅助的非完美标签设计方法
传统的实体关系标签主要依赖于人工根据业务需求的本体设计进行映射,然而由于标注过程中存
在不可避免的理解偏差以及疏忽,常常会导致标签设计的多次更改以及标注工作的重复。为此本文提
出了一种大语言模型辅助的非完美标签优化方法,利用生成式大语言模型 chatGLM2 - 6B [21] 提升标签
设计的合理性和完整性。
本方法的整体框架分为标签评分子模块和标签优化子模块两个部分,如图 1所示,在评分子模块
中通过对初始标签集的标签进行文本标注并评分,得到需要优化的标签;随后在优化子模块中,利用
同名关系标签的细化、内隐实体标签的生成和语义关系标签的更名三种标签优化方法来对低质量标签
进行优化,优化后的标签会返回到标签集中,并能够进行下一轮的迭代优化。
图 1 大语言模型辅助的非完美标签设计方法框架
— 9 2 1 —