Page 83 - 2024年第55卷第11期
P. 83
抽取数据训练模型。如图 1中,模型在与环境交互后得到的状态等数据除传递至计算网络输出该状态
下所有动作的价值外,还将存入模型记忆库中,以供后续学习。冻结 Q参数使模型中存在两个结构相
同但参数不同的神经网络,计算网络保持单步更新,目标网络 [25] 每隔周期 W 更新参数,从而减少神
经网络参数与电站历史运行数据之间的强相关性。对于站内负荷分配问题,DQN模型通过综合应用上
述两种方法,显著降低了模型对经验数量的需求,提高了数据的利用率。还能够打散历史经验序列,
切断数据之间的相关性,加快模型的收敛速度。
图 1 DQN模型结构
2.4 模型求解 模型求解可分为两个阶段:第一阶段,依据当前电站的实际负荷指令,输出所有满足
约束条件的开机方案;第二阶段,以第一阶段输出的方案为基础,综合考虑预报信息,以累计目标函
m
f最小为判断标准,使用 DQN算法选择电站的最优机组开机组合方案,并在此开机组合间实现
数 ∑ i
i =0
最优负荷分配。求解流程如图 2,计算过程如下:
第一步,读取当前电站机组的运行状态、发电水头 H、实际负荷指令 N、实际入库流量 Q等电
0
0
0
站状态,读入 m组预报信息,包括预测电站负荷指令[N,N,…,N ]与预测入库流量[Q,Q,…,
1 2 m 1 2
Q ],初始化 i = 0 。
m
第二步,根据电站的机组运行状态,计算在保证机组稳定运行的前提下,当前机组可承担的负荷
范围[ N ,N ]。若 N<N ,则关闭 一台机 组并更新 [N ,N ],重复 该动 作 直 至 N∈ [N ,
min
min
i
max
min
i
min
max
N ];若 N>N ,则开启一台机组并更新[N ,N ],重复该动作直至 N∈[N ,N ]。判断 i
min
max
i
max
min
max
i
max
是否为 0,若为 0至第三步,若不为 0至第四步。
第三步,以第二步输出的机组开机台数为基础,设置开启一台机组、关闭一台机组两种新的开机
组合方案,若以上新组合中存在满足约束条件的可行组合,则至第四步;若不存在新的可行方案,则
至第五步。
第四步,按照目标函数与约束条件,利用构建的 DQN模型快速计算输出各方案在发电水头为 H,
i
入库流量为 Q下的目标函数 f值并记录。更新机组的运行状态,令 i = i + 1,判断 i<m + 1是否成立,若
i i
成立至第五步,反之返回第二步。
第五步,判断方案数量,若可行方案唯一,则此方案即为电站开机组合;若 有多 种 可行方案,
m
则选取累计目标函数值 f最小者为电站最优开机组合。根据选定的开机组合,按照目标函数与约
∑ i
i =0
束条件,利用 DQN算法计算在水头 H、负荷指令 N、入库流量 Q下的负荷最优分配[N #,N #,…,
0
2
0
0
1
N #]。
n
3
— 1 4 9 —