Page 85 - 2024年第55卷第11期

P. 85

３
电耗水量，目标流量Ｑ取最小下泄流量３２７ｍ ?ｓ；汛期优化目标设置为控制电站上游水位，即最小
ｔａｒｇｅｔ
化上游水位与目标水位的偏差，为保证电站防洪安全并减少弃水，目标水位Ｚ取６２２ｍ，目标流量
ｔａｒｇｅｔ
Ｑｔａｒｇｅｔ由式（４）计算。为从多维度探究模型的优化性能，本文采用负荷分配表作为ＤＱＮ算法的对比方
法，并以２种负荷分配方式与是否考虑预报信息为基础，设置４种对比方案，如表２所示。由于负荷
分配表包含电站在各水头、各负荷指令下所有满足约束的负荷分配方式，因此分配表的大小与选取的
离散精度密切相关，在综合考虑计算时间与计算效率后，选取负荷离散精度３ＭＷ，水头离散精度０．１ｍ
的负荷分配表。
表２对比方案设置

方案１方案２方案３方案４
预报信息时长未来２ｈ未来２ｈ未来２ｈ无
负荷分配方法负荷分配表３ＭＷ精度的ＤＱＮ１ＭＷ精度的ＤＱＮ负荷分配表

３．２．２ＤＱＮ参数优选ＤＱＮ模型中的超参数主要包括学习率 α ，价值折扣因子 γ ，批次大小。学习率
影响更新幅度，过高可能导致模型在训练过程中出现震荡且难以收敛，过低则学习速度慢；折扣因子
决定长期回报的重视程度，影响策略规划；批次大小影响梯度估计稳定性，大虽稳定但计算成本高，
小虽泛化性能好但稳定性差。好的超参数可以提高模型的学习效果和收敛速度。因此，针对枯水期、
汛期模型，分别从电站历史运行数据库中各选取一个月的数据作为实验资料，每组参数分别训练５０
轮。在训练中，一回合指完成某一负荷指令分配；一轮指完成样本中所有负荷指令的分配。图３展示
了各参数下模型训练的总奖励值与学习轮次的关系，图中总奖励值变化趋势大致相同，训练前期快速
增加，之后逐渐趋于稳定。图３（ｂ）（ｄ）（ｅ）中均存在某种方案模型训练后期的总奖励值高于其余方案，
其对应的参数选择较明显。而图３（ａ）（ｃ）（ｆ）中有多种方案模型训练后期的总奖励值较为接近，表明
此参数的变化对模型训练影响较小，故以训练效率最优为判断标准，选择最先到达最高奖励值的方案
所对应的超参数。经对比分析，枯水期、汛期ＤＱＮ的超参数选取如表３所示。

表３ＤＱＮ超参数
超参数学习率折扣因子批次大小
枯水期０．０００５０．９５３２
汛期０．００５０．８６４

根据优选后的超参数，使用大样本集训练枯水期与汛期的ＤＱＮ模型。图４展示了训练过程中，智
能体在每轮中获得的总奖励值。本文设定动作选取策略为 ε －ｇｒｅｅｄｙ方法，初期 ε 保持不变，智能体可
以探索大量未知动作，故总奖励值在训练的前２０轮显著增加。之后 ε随着训练轮次增加而逐渐降低，
在８０轮的训练后，智能体获得的奖励值的波动幅度逐渐减小。在负荷调整精度为１ＭＷ时，枯水期最
小耗水量模型获得的总奖励值约为１５．５万，汛期水位控制模型获得的总奖励值约为３０万；在负荷调
整精度为３ＭＷ时，最小耗水量模型获得的总奖励值约为１６．５万，水位控制模型获得的总奖励值约为
３１．５万。而由于 ε 始终大于０，故即使在训练后期智能体获得的总奖励值始终存在一定的波动，但大
小趋于稳定，表明智能体通过训练已获得一种稳定可靠的负荷分配策略。

４研究结果分析

４种方案指导枕头坝水电站枯水期与汛期代表月份的调度运行，结果如表４—５所示：
（１）在计算时间方面，ＤＱＮ算法显著降低。方案１使用负荷分配表指导电站负荷分配，针对某一
负荷指令，该方法需在大量的可行开机组合中搜索最优解，需要耗时约４．５ｄ、４ｄ才能完成２０２０年１
月（枯水期代表月）和２０２０年７月（汛期代表月）的计算；方案２采用ＤＱＮ算法实现机组间负荷分配，

３
— １５１ —

80 81 82 83 84 85 86 87 88 89 90