Page 81 - 2024年第55卷第11期

P. 81

时，根据水库水位与目标水位的偏差，修正机组负荷分配，兼顾电站的水调需求。
Ｑ＝Ｑ（２）
ｔａｒｇｅｔ，ｔｍｉｎ
Ｑｔａｒｇｅｔ，ｔ＝Ｑｓａｆｅ，ｔ（３）
Ｑ＝Ｑ－Ｑ＋（Ｖ（Ｚ）－Ｖ（Ｚ））? Δ ｔ（４）
ｔａｒｇｅｔ，ｔｉｎｆｌｏｗ，ｔｆｌｏｏｄ，ｔｔｔａｒｇｅｔ，ｔ
式中：Ｑ为最小下泄流量；Ｑ为ｔ时刻下游防洪控制点的安全下泄流量；Ｑ为ｔ时刻入库流
ｍｉｎｓａｆｅ，ｔｉｎｆｌｏｗ，ｔ
量；Ｑｆｌｏｏｄ，ｔ为ｔ时刻泄洪流量；Ｚ为ｔ时刻水库上游水位；Ｚｔａｒｇｅｔ，ｔ为ｔ时刻目标水位；Δ ｔ为相邻负荷指令
ｔ
的间隔时间；Ｖ（·）为水库水位与库容间的函数关系。
模型需要满足的约束条件如下：
（１）水量平衡约束：

ｎｔｏｔａｌ
Ｖ＝Ｖ＋（Ｑ－Ｑｆｌｏｏｄ，ｔ∑ Ｑ（Ｎ，Ｈ）） × Δ ｔ（５）
－
ｔ＋１ｔｉｎｆｌｏｗ，ｔｉ，ｔｔ
ｉ＝１
（２）库水位约束：
Ｚｄｏｗｎ ≤Ｚ≤Ｚｕｐ（６）
ｔ
（３）出力约束：
Ｎｉ，ｄｏｗｎ ≤Ｎ ≤Ｎｉ，ｕｐ（７）
ｉ，ｔ
（４）机组运行约束：
ｎ＋ｎ＝ｎｔｏｔａｌ（８）
ｏｎ
ｏｆｆ
ｎｔｏｔａｌ
∑ Ｎ＝Ｎｔ（９）
ｉ，ｔ
ｉ＝１
ｉ，ｄｏｗｎ ≥０
（Ｎ－Ｎｊ） × （Ｎ－Ｎｊ）（１０）
ｉ，ｔｉ，ｕｐｉ，ｔ
式中：Ｖ和Ｖ为ｔ时刻与ｔ＋１时刻水库库容；Ｚｄｏｗｎ和Ｚ为水库水位的下限和上限；Ｎｉ，ｄｏｗｎ和Ｎ为第
ｕｐ
ｉ，ｕｐ
ｔ
ｔ＋１
ｉ台机组出力的下限和上限；ｎ、ｎ为电站的开机机组数、关机机组数；Ｎ为ｔ时刻电站的要求出力；
ｏｎｏｆｆｔ
Ｎｊ、Ｎｊ为第ｉ台机组的第ｊ个振动区的下限和上限。
ｉ，ｄｏｗｎｉ，ｕｐ
２．２强化学习模型将站内实时负荷分配描述为一个多阶段的电站负荷指令与机组相匹配的问题，以
５ｍｉｎ为时间离散步长对分配过程进行划分，并将其建模为马尔科夫决策过程，该决策过程可由状态
集Ｓ，动作集Ａ，状态转移概率Ｐ，奖励值Ｒ组成的四元组（Ｓ，Ａ，Ｐ，Ｒ）表示。
强化学习（ＲＬ）模型在每个决策阶段开始时与环境交互，获得当前环境的状态值ｓ后，根据动作选
择策略 π （ｓ，ａ）从动作集Ａ中选取动作ａ并执行，实现负荷在机组间的分配。当前分配结束后，环境
会针对决策结果生成奖励值ｒ，用于评价决策的好坏。本文中ＲＬ模型的状态、动作、奖励与动作选取
策略定义如下：
（１）状态ｓ：表示智能体与环境交互后得到的观测值，是由决策过程中所有可能影响智能体动作选
择的环境因素所构成的集合。由于ＲＬ模型涉及电站所有机组的运行，并受水库水情影响，因此表征
模型状态需要大量的数据，本文定义在ｔ阶段的状态为一维张量［Ｚ，Ｑ，Ｑ，Ｎ］。
ｔｉｎｆｌｏｗ，ｔｔａｒｇｅｔ，ｔｔ
（２）动作ａ：表示智能体可以执行的行为，用于与环境交互并影响环境的状态。在每个决策阶段，
ＲＬ模型需将负荷指令分配至合适的机组，若直接定义机组承担的负荷为动作，易导致动作集过大，
模型难以有效训练。由于ｔ阶段电站的开机组合已由负荷分配模型确定，故ＲＬ模型仅需在固定机组
间调整负荷。因此，可将动作转化为在机组间调整负荷，尽可能缩小动作集，提升模型训练效率。负
＃
＃
荷调整方法描述为：设定调整精度为ｎＭＷ，智能体选择一个动作，该动作首先选定机组ｉ与ｊ，其后
＃
＃
在两台机组间调整负荷，即机组ｉ增加ｎＭＷ负荷，机组ｊ减少ｎＭＷ负荷或相反。模型通过在机组
间调整负荷，使电站发电流量尽可能接近目标流量，以实现机组负荷的优化分配。此外单独设置输出
动作，当选取到该动作时，不再调整负荷，当前负荷指令分配结束，输出机组负荷分配情况。因为动
作选择具有一定的随机性，可能出现无效或不合理的动作选择，如：①循环调整动作，即连续负荷调
整后，机组负荷分配结果不变，导致机组间负荷的无效调整，影响决策输出速度；②调整后机组承担
的负荷不满足电站运行的约束条件。因此，需对选取的动作进行判定，当判定为无效动作时，此次选

— １４７ —
３

76 77 78 79 80 81 82 83 84 85 86