Page 81 - 2024年第55卷第11期
P. 81
时,根据水库水位与目标水位的偏差,修正机组负荷分配,兼顾电站的水调需求。
Q = Q (2)
target,t min
Q target,t = Q safe,t (3)
Q = Q - Q + (V(Z) - V(Z ))? Δ t (4)
target,t inflow,t flood,t t target,t
式中:Q 为最小下泄流量;Q 为 t时刻下游防洪控制点的安全下泄流量;Q 为 t时刻入库流
min safe,t inflow,t
量;Q flood,t 为 t时刻泄洪流量;Z为 t时刻水库上游水位;Z target,t 为 t时刻目标水位;Δ t为相邻负荷指令
t
的间隔时间;V(·)为水库水位与库容间的函数关系。
模型需要满足的约束条件如下:
( 1)水量平衡约束:
n total
V = V+ (Q - Q flood,t∑ Q(N ,H)) × Δ t (5)
-
t + 1 t inflow,t i,t t
i =1
(2)库水位约束:
Z down ≤Z≤Z up (6)
t
( 3)出力约束:
N i,down ≤N ≤N i,up (7)
i,t
( 4)机组运行约束:
n + n = n total (8)
on
off
n total
∑ N = N t (9)
i,t
i =1
i ,down ≥0
(N - N j ) × (N - N j ) (10)
i,t i ,up i,t
式中:V和 V 为 t时刻与 t + 1时刻水库库容;Z down 和 Z 为水库水位的下限和上限;N i,down 和 N 为第
up
i,up
t
t + 1
i台机组出力的下限和上限;n 、n 为电站的开机机组数、关机机组数;N为 t时刻电站的要求出力;
on off t
N j 、N j 为第 i台机组的第 j个振动区的下限和上限。
i,down i,up
2.2 强化学习模型 将站内实时负荷分配描述为一个多阶段的电站负荷指令与机组相匹配的问题,以
5min为时间离散步长对分配过程进行划分,并将其建模为马尔科夫决策过程,该决策过程可由状态
集 S,动作集 A,状态转移概率 P,奖励值 R组成的四元组(S,A,P,R)表示。
强化学习( RL)模型在每个决策阶段开始时与环境交互,获得当前环境的状态值 s后,根据动作选
择策略 π (s,a)从动作集 A中选取动作 a并执行,实现负荷在机组间的分配。当前分配结束后,环境
会针对决策结果生成奖励值 r,用于评价决策的好坏。本文中 RL模型的状态、动作、奖励与动作选取
策略定义如下:
( 1)状态 s:表示智能体与环境交互后得到的观测值,是由决策过程中所有可能影响智能体动作选
择的环境因素所构成的集合。由于 RL模型涉及电站所有机组的运行,并受水库水情影响,因此表征
模型状态需要大量的数据,本文定义在 t阶段的状态为一维张量[Z,Q ,Q ,N]。
t inflow,t target,t t
(2)动作 a:表示智能体可以执行的行为,用于与环境交互并影响环境的状态。在每个决策阶段,
RL模型需将负荷指令分配至合适的机组,若直接定义机组承担的负荷为动作,易导致动作集过大,
模型难以有效训练。由于 t阶段电站的开机组合已由负荷分配模型确定,故 RL模型仅需在固定机组
间调整负荷。因此,可将动作转化为在机组间调整负荷,尽可能缩小动作集,提升模型训练效率。负
#
#
荷调整方法描述为:设定调整精度为 nMW,智能体选择一个动作,该动作首先选定机组 i与 j,其后
#
#
在两台机组间调整负荷,即机组 i增加 nMW 负荷,机组 j减少 nMW 负荷或相反。模型通过在机组
间调整负荷,使电站发电流量尽可能接近目标流量,以实现机组负荷的优化分配。此外单独设置输出
动作,当选取到该动作时,不再调整负荷,当前负荷指令分配结束,输出机组负荷分配情况。因为动
作选择具有一定的随机性,可能出现无效或不合理的动作选择,如:①循环调整动作,即连续负荷调
整后,机组负荷分配结果不变,导致机组间负荷的无效调整,影响决策输出速度;②调整后机组承担
的负荷不满足电站运行的约束条件。因此,需对选取的动作进行判定,当判定为无效动作时,此次选
— 1 4 7 —
3