Page 91 - 2024年第55卷第1期
P. 91

标注的形式,即一列文本内容与一列标签相对应。最后将带标签的句子按照 8∶2的比例生成训练集、
              测试集作为模型输入数据。数据处理流程如图 5所示。


























                                                      图 5 数据处理流程

                  赵慧子等     [29] 曾以 883篇水文模型领域中文期刊论文为数据源,进行了水文模型领域命名实体识别
              研究,构建的数据集共包含各实体 45621个,句子 26078个,其中不包含实体的句子 6000余个。本
              文在此基础上扩大文论数量至 1209篇,对 BERT模型进行了增量训练。扩大后的数据集包含各类实体
              51152个,句子总量达到 32088个,其中不包含实体的句子 7200个。
              4.2 知识抽取 利用处理好的数据训练 BERT模型,使用精确率 P(Precision)、召回率 R(Recall)、
              F1值(H - mean 值)三个值作为评价指标对模型精度进行评估,计算公式分别为:
                                                  识别正确实体的数量
                                               P =                  × 100%                              (1)
                                                   识别出实体的数量
                                                  识别正确实体的数量
                                               R =                  × 100%                              (2)
                                                   文本中实体的数量
                                                         2 P·R
                                                     F1 =     × 100%                                    (3)
                                                          P + R
                  增量训练中对 BERT模型进行超参数调整:最大序列长度等于 128,epoch为 10,batchsize为 32,
              存储步数为 425,dropout为 0.1。实体抽取的精度结果如表 5所示。

                                                     表 5 实体抽取精度                                    单位:%
                                  BERT模型(883篇)              BERT模型(1209篇)                 多策略结合
                  实体类型
                                P       R        F1       P        R       F1       P        R       F1
                  水文要素         94       94       94      97       97       97       98      98        98
                  评价指标         98       98       98      98       98       98       98      99        99
                  水文模型         83       83       86      86       86       86       91      92        91
                  水文站点         86       86       86      90       83       86       94      89        90
                计算时段类型         97       99       98      98       99       98       98      100       99
                  整体评估         92       92       92      94       94       94       96      96        95

                  从表 5可以看出:
                  ( 1)对于大部分的实体类型,增量训练都带来了性能提升,尽管这种提升在不同的实体类型之间
              有所不同,但这说明了增量训练有助于提升模型在识别各种类型实体时的性能。

                —  8 6 —
   86   87   88   89   90   91   92   93   94   95   96