Page 15 - 2025年第56卷第7期
P. 15
SHAP 值的影响。每个特征的 SHAP 值越靠近 0,说明该特征对模型输出的影响越小;越远离 0(无论正
负),则影响越大。图中显示,滞后一个时段径流(Q t-1 )是最重要的特征,其样本点分布在 SHAP 值为
-0.25 至 1.0 之间,且样本特征值越大,SHAP 值也越大,呈现正相关关系,除自上次处理后的地面以
上 2 m 处最低温度(mn2t t-1 )外,其余特征也呈现相似的趋势。此外,Q t-1 、Q t-2 等特征的 SHAP 值分布较
广,说明这些特征对模型输出的影响较为显著,而其他一些特征(如 tcw t-1 )的影响相对较小,SHAP 值
分布更接近 0。
图 8(b)是通过 SHAP 值矩阵绘制的每个特征在不同样本中 SHAP 值分布图,SHAP 值矩阵包含每个
样本和对应特征的 SHAP 值。图中 x 轴表示测试集样本,这些样本按照解释相似性进行分层聚类排序;
y 轴表示模型的输入特征,特征根据其贡献度排序;色标表示 SHAP 值的大小和方向,颜色越深表示
SHAP 值越大;上方的曲线图显示了各个样本的总体预测值 f(x),右侧的条形图表示各特征在整个测
试集上的累计贡献。图形整体展示了 15 个输入特征对于模型预测值的影响。例如,在测试集第 20 个
样本中,滞后径流和降雨(Q t-1 、Q t-2 、R t-1 )、第二层土壤温度(stl2 t-1 )、土壤水分(swvl3 t-1 、swvl1 t-1 )等
具有较大的正向 SHAP 值(深红色),说明当之后径流较大、降雨增加、土壤温度和水分较高时,预报
径流增大。
图 8 模型预测过程解释
5 结论
采用 SHAP 方法和 CNN-BiLSTM 模型相结合,开发了一种通过“事后”特征选择机制优化输入特
征的可解释径流预报框架,以天一电站日径流预报为研究实例,得出的主要结论为:
(1)基于 SHAP 方法选择输入特征的 CNN-BiLSTM 模型在所有评价指标上均优于传统基于 PACF、
CCF 和 RF 方法选择输入特征的模型。这表明,基于“事后”选择输入特征的 SHAP 方法,更加符合实
际逻辑,显著提升了模型输入特征选择的合理性和有效性,整体预报效果也更好。
(2)SHAP 方法通过量化和可视化特征贡献度,提供了对模型预报机制的解释,打破了“黑箱”模
型的局限性,这一过程极大提升了模型的可解释性,使得复杂的深度学习模型不再是不可解的“黑
箱”。未来的研究可以进一步探索长预见期径流预报的最佳输入特征,以提取在不同预见期中对径流
预报最有影响的特征,从而进一步提升模型的预报性能和应用价值。
参 考 文 献:
[ 1 ] DEY P, MISHRA A. Separating the impacts of climate change and human activities on streamflow: A review of
.
methodologies and critical assumptions[J] Journal of Hydrology,2017,548:278-290.
[ 2 ] XU W,CHEN J,ZHANG X J,et al. A framework of integrating heterogeneous data sources for monthly streamflow
— 841 —