Page 72 - 2024年第55卷第9期
P. 72

图 8 规范结构特征示意图                                     图 9 险情类型提取流程
                                                   表 2 险情类型提取规则

                 语料原文                         匹配模式                   提取模式                   提取内容
                 2防洪安全隐患处置                                                                  防洪安全
                                                                      
                                              
                                          r’^\d. 隐患处置S’         r’^\d(. )隐患处置S’
                 3渗流安全隐患处置                                                                  渗流安全
                 2.2防洪标准不足                                                                防洪标准不足
                                                     
                                                                            
                                           r’^\d.\d[^.]. ’       r’^\d.\d[^.](. )’
                 3.3坝体渗漏                                                                    坝体渗漏
              4.2.2 险情原因抽取 险情原因的知识抽取有两种方式:一是从整理好的结构化险情知识直接提取险
              情原因;二是对语料库中的半结构化规范建立规则抽取。在《导则》中,每种险情下有情形描述条款,
              如图 8蓝色框条款对应的内容。以防洪标准不足的险情为例,《导则》中说明了该种险情主要包括的情
              形描述分别为 “依据资料不充分,设计洪水偏小” “水库淤积严重,库容减小” “挡水建筑物及防渗
              体顶高程不满足规范要求”,这些情形描述的内容在一定程度上可认为是导致险情发生的原因。因此,
              首先筛选出《导则》中能够作为险情原因的情形描述。在这个过程中,本研究通过两位具有丰富工程经
              验的专家进行筛选。只有当两位专家都认为某条款是原因时,该条款才会被归为险情原因。
                  其次,情形描述的开始行具有 “[首](数字)( .)(数字)(.)(数字) + [空格] + < 具体情形>(主要包
              括以下情形:)[尾]” 的格式,内容行具有 “[首](数字) + [空格] + <情形描述内容 >[尾]” 的格式。
              因此分别建立开始行的匹配模式、内容行的匹配和提取模式,如表 3所示。提取规则为对每个具体情
              形段落进行逐行匹配,匹配到情形描述开始行时,判断后续每行是否为内容行,若为内容行则利用提
              取模式进行提取。
                  采用上述两个方法能较为全面地在语料库中抽取出土石坝险情原因,将其存入列表以便后续使
              用,而险情原因与具体情形之间对应的因果关系则转化为(具体情形,isCausedby,险情原因)的三元
              组形式表达。
                                                   表 3 险情原因提取规则

                          语料原文                      匹配模式               提取模式                 提取内容
                                                   
               2.2.1防洪标准不足主要包括以下情形:           r’^\d. 包括以下情形:S’
               1依据资料不充分,设计洪水偏小                                                      依据资料不充分,设计洪水偏小
                                                           
                                                                            
                                                  r’^\d[^.)]. ’       r’^\d(. )’
               2水库淤积严重,库容减小                                                           水库淤积严重,库容减小
              4.2.3 险情措施抽取 规范中存在大量表示 “怎么做” 的标准用词,如:“应” “宜” “可” 等,为行

                                                                                                   0
                                                                                              —   1 7 7 —
   67   68   69   70   71   72   73   74   75   76   77