Page 71 - 2024年第55卷第9期
P. 71
4.1 数据来源 随着我国水利事业的发展,与土石坝有关的大量知识积累、储存在各类资料中,共同
形成了领域数据库。然而这些数据存在结构各异、存储分散的特点,将多源异构的数据进行处理并建
立语料库是数据层构建的第一步。本文选取标准规范及事故库作为数据来源。对于水利行业土石坝领
域的标准规范,如:《碾压式土石坝设计规范》《碾压式土石坝施工技术规范》《土石坝安全监测技术规
范》等,它们在章节条目的架构上具有一定的结构特征,但具体内容中存在部分无规律描述,属于半
结构文本,预处理时首先将其文件格式转换为可编辑的文本格式并进行分行操作,同时删除不必要的
空白字符 [26] ;对于事故库,自然语言表述的多样性使得事故案例的信息获取渠道广泛且无明显的结构
特征,本文从政府官网、文献资料及媒体报道中查找土石坝险情相关案 例,提 取事 故的 主要信息,
如:时间、险情类型、险情原因等,整理形成结构化险情知识如表 1,将非结构化案例数据转化为结
构化事故库,与土石坝相关规范一起作为知识抽取的语料来源。
表 1 结构化险情知识整理(部分)
序号 险情简介 险情类型 险情原因 来源 来源类型
2020 年 6月 5日,浙江省衢州市常山县辉埠
1 滑坡 水库长时间高水位运行 浙江省水利厅 [27] 政府官网
镇东乡村大坞水库大坝背水坡出现局部滑坡。
2020 年 8月 16日,四川省绵阳市三台县新德
长时间高水位浸泡、涪
2 镇新渡村外 500米左右 的 涪 江 干 流 河 堤 出 现 滑坡 央广网- 川报观察 [28] 新闻媒体
江干流高流速冲刷
垮塌险情。
2021 年河 南 省 郑 州 市 “7·20” 特 大 暴 雨 期 洪水漫顶、
强 降 雨、 溢 洪 道 堵 塞、
3 间,郭家咀、常庄、五 星 等 3座 水 库 发 生 过 坝体渗漏、 文献[ 29] 文献资料
坝坡偏陡
多处险情。 滑坡
2013 年 2月 1日,黑龙江海伦农场星火水库 运行管 理 不 当 (监 测 预
穿坝建筑物
4 在除险加固工程中因穿坝建筑物接触渗 漏 破 警滞后,错过最佳抢险 文献[ 30] 文献资料
接触渗漏
坏发生溃坝。 时机、违规超蓄)
4.2 知识抽取 知识抽取的方法通常有基于规则的方法和基于深度学习的方法 [31] 。考虑到土石坝险
情领域作为水利工程分支领域,数据体量相对小,且人工规则具有高准确度的优点,因此本研究采用
基于规则的方法进行知识抽取。
4.2.1 险情类型抽取 险情类型的提取来源于语料库中的规范《小型水库土石坝主要安全隐患处置技
术导则》(以下简称为《导则》),其章节标题与险情类型的匹配度较高,能较为全面而准确地对类型进
行概括,分别为:防洪安全险情、渗流安全险情、结构安全险情、金属结构安全险情以及运行管理安
全隐患险情。同时章节标题下的二级标题对应了具体的险情情形,因此利用正则表达式对章节标题中
所需内容进行提取。
正则表达式是一种检索、匹配字符串的模式,用于描述字符串的特征,对特定格式文本的提取很
有帮助。《导则》中章节标题和二级标题具有明显的结构特征,如图 8红色框所示,其中章节标题的格
式为 “[首](数字) + [空格] + < 险情类型 >(隐患处置)[尾]”;二级标题的格式为 “[首](数字)(.)
(数字) + [空格] + < 具体情形>[尾]”。建立提取规则时,为了避免提取错误,利用正则表达式分别建
立匹配模式和提取模式如表 2,其运行流程如图 9所示,对规范每一行判断其是否符合匹配模式,若
不符合则继续执行循环;若符合则进入提取模式获得所需文本,接着进入下一行。提取结果可建立
{险情类型:具体情形} 键值对存入字典中,同时险情类型与具体情形之间存在包含关系,将该关系
以三元组(具体情形,isIncludedin,险情类型)形式存储。此外,具体情形对应着不同的原因和措施,
将其单独存入列表以便后续关联关系的建立。需要注意的是,提取到的每章节第一个二级标题内容为
“一般规定”,与具体情形无关需进行排除。
7
— 1 0 6 —