Page 6 - 2025年第56卷第7期

P. 6

［9］
度和可解释性。为了应对这一挑战，Cappelli 等［10］提出了多种模型解释方法，如特征重要性分析、
部分依赖图（Partial Dependence Plots， PDP）、局部可解释性模型（Local Interpretable Model-agnostic
Explanations，LIME）等，但是这些方法在实际应用中难以处理高维数据、解释结果也不稳定，特征重
要性分析会忽略特征间的复杂交互，PDP 和 LIME 方法虽然直观，但在高维度或复杂数据集上表现不
稳定，导致解释结果的偏差。相比之下，沙普利可加性解释（SHapley Additive exPlanations，SHAP）方
法［11］基于合作博弈理论，通过计算特征对模型输出的贡献度提供了统一且直观的特征重要性度量，确
保了在高维数据上也能够提供稳定的解释结果，尤其在面对复杂模型时，能够清晰地揭示特征间的非
线性关系。SHAP 方法不仅能量化和可视化特征贡献度，揭示模型的内部机制，还能通过其理论上的
一致性和公平性克服其他解释方法的不足。因此，选择将 CNN 和 BiLSTM 相结合构建 CNN-
［12-13］
BiLSTM 模型，同时从局部特征和全局特征两个层次提取数据特征，综合考虑数据的空间和时序信
息，能更好地进行建模和预报的同时，再通过将 SHAP 方法和 CNN-BiLSTM 模型相结合，构建了双特
征提取、可解释的预报框架。
由于径流受到降雨、温度和湿度等多种因素的综合影响，为预报模型选择有效的输入特征从而提高
径流预报的准确性至关重要。输入特征选择过多会导致模型过拟合，从而降低模型在新数据上的泛化能
力；而选择过少的输入特征则会忽略重要信息，影响模型的预报准确性［14］。在以往径流预报研究中，通
常以偏自相关系数（Partial Autocorrelation Function，PACF）［15］、互相关系数（Cross-Correlation Func⁃
［16］
tion，CCF）、最大信息系数（Maximum Information Coefficient，MIC）、最小绝对收缩与选择算子（Least
［17］
Absolute Shrinkage and Selection Operator，LASSO）和随机森林（Random Forest，RF）［18-20］等方法从观
测径流、当地气象数据和大尺度气候指数等数据集中选取输入特征。这些方法通常在模型未训练前依赖
输入数据之间的统计相关性或特征的重要性进行“事前”输入，选择以此确定模型结构和率定模型参
数，割裂了特征选择与模型校准之间的联系，影响模型的预报性能。为了更合理地选择输入特征，本文
提出了一种基于 SHAP 方法的“事后”特征选择策略。通过计算每个候选输入特征对模型输出的实际贡
献度，依次剔除贡献度最小的特征，从而优化模型输入，提升径流预报的准确性和模型的可解释性。

2 研究区域与数据

2.1 研究区域概况本文运用所提模型预报天生桥一级水电站（简称：天一）的日区间入库流量，该电
站是我国“西电东送”战略特大型骨干电站。自天一发电运行以来，使原独立运行的云、贵、两广四
省（区）电网相联接，构成“西电东送”的南路大通道，实现了我国西部丰富的水电资源输送到东部沿
海的伟大战略构想，极大促进了社会经济可持续发展。如图 1 所示，天一是红水河梯级水电资源开
发电站，调节性能好、发电效益大、电能质量高，电站总装机容量 1200 MW（4×300 MW），流域面
积 50 139 km ，以天一为例进行研究具有十分重要的现实意义。
2
2.2 输入数据由于气象监测数据存在缺失和保密等客观原因，以欧洲中期天气预报中心的第五代再
［21-22］
分析（ERA5）数据为气象资料，从数据集中选择近地表 36 个气象数据［23］作为径流预报的模型输入，
如表 1 所示。除气象数据外，天一 2016 年 1 月 1 日至 2020 年 12 月 31 日的日平均面雨量、区间入库流量
观测值也作为输入。为将数据的数量级化为相同尺度对所有输入序列都进行标准化处理。

3 径流预报框架

3.1 CNN-BiLSTM 模型 CNN-BiLSTM 是一种结合 CNN 和 BiLSTM 的深度学习模型，它充分发挥了
CNN 在局部特征提取方面和 BiLSTM 在长期建模方面的优势，实现了更加有效的时序数据分析和预
测，相较于单一 CNN 模型和 BiLSTM 模型 CNN-BiLSTM 模型有以下三个优点：（1）多层次特征提取：
CNN-BiLSTM 模型能够同时从局部特征和全局特征两个层次提取数据特征，综合考虑数据的空间和

— 832 —

1 2 3 4 5 6 7 8 9 10 11