Page 71 - 2024年第55卷第9期

P. 71

４．１数据来源随着我国水利事业的发展，与土石坝有关的大量知识积累、储存在各类资料中，共同
形成了领域数据库。然而这些数据存在结构各异、存储分散的特点，将多源异构的数据进行处理并建
立语料库是数据层构建的第一步。本文选取标准规范及事故库作为数据来源。对于水利行业土石坝领
域的标准规范，如：《碾压式土石坝设计规范》《碾压式土石坝施工技术规范》《土石坝安全监测技术规
范》等，它们在章节条目的架构上具有一定的结构特征，但具体内容中存在部分无规律描述，属于半
结构文本，预处理时首先将其文件格式转换为可编辑的文本格式并进行分行操作，同时删除不必要的
空白字符［２６］；对于事故库，自然语言表述的多样性使得事故案例的信息获取渠道广泛且无明显的结构
特征，本文从政府官网、文献资料及媒体报道中查找土石坝险情相关案例，提取事故的主要信息，
如：时间、险情类型、险情原因等，整理形成结构化险情知识如表１，将非结构化案例数据转化为结
构化事故库，与土石坝相关规范一起作为知识抽取的语料来源。

表１结构化险情知识整理（部分）

序号险情简介险情类型险情原因来源来源类型
２０２０年６月５日，浙江省衢州市常山县辉埠
１滑坡水库长时间高水位运行浙江省水利厅［２７］政府官网
镇东乡村大坞水库大坝背水坡出现局部滑坡。
２０２０年８月１６日，四川省绵阳市三台县新德
长时间高水位浸泡、涪
２镇新渡村外５００米左右的涪江干流河堤出现滑坡央广网－川报观察［２８］新闻媒体
江干流高流速冲刷
垮塌险情。
２０２１年河南省郑州市 “７·２０” 特大暴雨期洪水漫顶、
强降雨、溢洪道堵塞、
３间，郭家咀、常庄、五星等３座水库发生过坝体渗漏、文献［２９］文献资料
坝坡偏陡
多处险情。滑坡
２０１３年２月１日，黑龙江海伦农场星火水库运行管理不当（监测预
穿坝建筑物
４在除险加固工程中因穿坝建筑物接触渗漏破警滞后，错过最佳抢险文献［３０］文献资料
接触渗漏
坏发生溃坝。时机、违规超蓄）

４．２知识抽取知识抽取的方法通常有基于规则的方法和基于深度学习的方法［３１］。考虑到土石坝险
情领域作为水利工程分支领域，数据体量相对小，且人工规则具有高准确度的优点，因此本研究采用
基于规则的方法进行知识抽取。
４．２．１险情类型抽取险情类型的提取来源于语料库中的规范《小型水库土石坝主要安全隐患处置技
术导则》（以下简称为《导则》），其章节标题与险情类型的匹配度较高，能较为全面而准确地对类型进
行概括，分别为：防洪安全险情、渗流安全险情、结构安全险情、金属结构安全险情以及运行管理安
全隐患险情。同时章节标题下的二级标题对应了具体的险情情形，因此利用正则表达式对章节标题中
所需内容进行提取。
正则表达式是一种检索、匹配字符串的模式，用于描述字符串的特征，对特定格式文本的提取很
有帮助。《导则》中章节标题和二级标题具有明显的结构特征，如图８红色框所示，其中章节标题的格
式为 “［首］（数字）＋［空格］＋＜险情类型＞（隐患处置）［尾］”；二级标题的格式为 “［首］（数字）（．）
（数字）＋［空格］＋＜具体情形＞［尾］”。建立提取规则时，为了避免提取错误，利用正则表达式分别建
立匹配模式和提取模式如表２，其运行流程如图９所示，对规范每一行判断其是否符合匹配模式，若
不符合则继续执行循环；若符合则进入提取模式获得所需文本，接着进入下一行。提取结果可建立
｛险情类型：具体情形｝键值对存入字典中，同时险情类型与具体情形之间存在包含关系，将该关系
以三元组（具体情形，ｉｓＩｎｃｌｕｄｅｄｉｎ，险情类型）形式存储。此外，具体情形对应着不同的原因和措施，
将其单独存入列表以便后续关联关系的建立。需要注意的是，提取到的每章节第一个二级标题内容为
“一般规定”，与具体情形无关需进行排除。

７
— １０６ —

66 67 68 69 70 71 72 73 74 75 76