Page 72 - 2024年第55卷第9期
P. 72
图 8 规范结构特征示意图 图 9 险情类型提取流程
表 2 险情类型提取规则
语料原文 匹配模式 提取模式 提取内容
2防洪安全隐患处置 防洪安全
r’^\d. 隐患处置S’ r’^\d(. )隐患处置S’
3渗流安全隐患处置 渗流安全
2.2防洪标准不足 防洪标准不足
r’^\d.\d[^.]. ’ r’^\d.\d[^.](. )’
3.3坝体渗漏 坝体渗漏
4.2.2 险情原因抽取 险情原因的知识抽取有两种方式:一是从整理好的结构化险情知识直接提取险
情原因;二是对语料库中的半结构化规范建立规则抽取。在《导则》中,每种险情下有情形描述条款,
如图 8蓝色框条款对应的内容。以防洪标准不足的险情为例,《导则》中说明了该种险情主要包括的情
形描述分别为 “依据资料不充分,设计洪水偏小” “水库淤积严重,库容减小” “挡水建筑物及防渗
体顶高程不满足规范要求”,这些情形描述的内容在一定程度上可认为是导致险情发生的原因。因此,
首先筛选出《导则》中能够作为险情原因的情形描述。在这个过程中,本研究通过两位具有丰富工程经
验的专家进行筛选。只有当两位专家都认为某条款是原因时,该条款才会被归为险情原因。
其次,情形描述的开始行具有 “[首](数字)( .)(数字)(.)(数字) + [空格] + < 具体情形>(主要包
括以下情形:)[尾]” 的格式,内容行具有 “[首](数字) + [空格] + <情形描述内容 >[尾]” 的格式。
因此分别建立开始行的匹配模式、内容行的匹配和提取模式,如表 3所示。提取规则为对每个具体情
形段落进行逐行匹配,匹配到情形描述开始行时,判断后续每行是否为内容行,若为内容行则利用提
取模式进行提取。
采用上述两个方法能较为全面地在语料库中抽取出土石坝险情原因,将其存入列表以便后续使
用,而险情原因与具体情形之间对应的因果关系则转化为(具体情形,isCausedby,险情原因)的三元
组形式表达。
表 3 险情原因提取规则
语料原文 匹配模式 提取模式 提取内容
2.2.1防洪标准不足主要包括以下情形: r’^\d. 包括以下情形:S’
1依据资料不充分,设计洪水偏小 依据资料不充分,设计洪水偏小
r’^\d[^.)]. ’ r’^\d(. )’
2水库淤积严重,库容减小 水库淤积严重,库容减小
4.2.3 险情措施抽取 规范中存在大量表示 “怎么做” 的标准用词,如:“应” “宜” “可” 等,为行
0
— 1 7 7 —