Page 80 - 2024年第55卷第11期

P. 80

于连续空间的优化问题，易于实现和理解，并行处理能力强，但容易陷入局部最优解；蚁群算法模拟
蚂蚁寻找食物的行为，适用于路径规划、调度等组合优化问题，可通过信息素更新机制搜索近似最优
解，但其收敛速度慢、计算成本较高；遗传算法模仿自然选择的过程，适用于函数优化、调度问题
等，其全局搜索能力强，可用于解决离散或连续问题，但寻优耗时长，易陷入局部最优。强化学习
（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ，ＲＬ）［２０］可使计算机在与环境的交互中学习策略，比遗传算法、粒子群算法等
具有更强的复杂环境适应能力，目前在水电调度领域已有一定研究［２１］。例如，运用ＨＳＡＲＳＡ算法优
化水库长期调度策略［２２］、利用Ｑ－Ｌｅａｒｎｉｎｇ算法解决水风光短期运行问题［２３］等，但早期强化学习算法
因探索与利用平衡难、奖励稀疏、状态空间高维、环境非静态、策略评估复杂、局部最优、泛化能力
差等问题，存在训练效率低、学习效果不稳定等不足。ＤＱＮ（ＤｅｅｐＱＮｅｔｗｏｒｋ）算法是一种将深度学习
中的神经网络和强化学习中的Ｑ－ｌｅａｒｎｉｎｇ算法相结合的ＲＬ算法，其可利用神经网络输出动作价值，
经有效训练后可显著提高决策效率。站内负荷分配需协调不同发电机组间的负荷分配，分配动作个数
多。水电站的状态包括水库水位、入库流量、发电机组运行状态和电网负荷需求等，状态复杂。而
ＤＱＮ算法适用于处理高维状态和连续动作空间，契合水电站站内负荷分配问题的特性。同时，该算法
可不断学习并适应环境变化，优化负荷分配策略，这与水电站负荷分配中需要制定并执行最优发电策
略的需求相吻合，因此，ＤＱＮ算法与多状态、多动作的水电站内负荷分配问题相匹配，具有很强的应
用潜力。
本文建立基于ＤＱＮ算法的水电站站内负荷优化分配方法，灵活满足不同时期多样变化的水利－电
力调控要求，提高复杂工况下分配决策的效率和精度。首先，建立站内负荷优化分配模型，在完成电
站负荷指令要求的前提下，通过灵活调整机组启停和负荷分配策略，满足水位或流量的调控要求。其
次，采用具有大数据学习能力与高维度问题求解能力的ＤＱＮ算法，研究模型求解流程和计算方法，
实现复杂解空间的高效寻优。最后，以大渡河流域的枕头坝水电站为实例，开展应用研究。

２基于ＤＱＮ的站内负荷优化分配模型

基于ＤＱＮ算法的站内负荷优化分配模型由两部分组成：（１）建立兼顾电站水利－电力调控需求的
目标函数和约束集合，解决既往负荷优化分配 “重视电量调节需求（即电调）、忽略水量调节需求（即
水调）” 问题；（２）采用具有高效求解能力的ＤＱＮ算法，利用其在训练后可快速、准确输出最优决策
的特性，提升电站负荷分配的速度与精度。
２．１负荷分配模型水电站运行需要兼顾发电、防洪、航运等多目标调节需求，不同调度时期的目标
优先级不同，重点调控对象也有差别。例如，汛期以防洪任务为主，电站运行主要以保证自身安全或
下游防洪控制点安全为目标，按照 “控水位” 或者 “控出库” 的方式运行；枯水期以发电任务为主
时，按照满足电力系统电量供给和电力调节的 “控出力” 方式运行。既往以耗水量最小为调度目标的
负荷分配模型，主要适用于以发电为主的节水增发时期，存在重电调、轻水调的弊端。为此，本文构
建了兼顾水电站电调、水调需求的负荷优化分配模型，其目标函数如下：
ｎｔｏｔａｌ
ｆ＝ｍｉｎＱｔａｒｇｅｔ，ｔ ∑ Ｑ（Ｎ，Ｈ）＋ｃＱｐｕｂｌｉｓｈ（１）
－
ｔ
ｉ，ｔ
ｉ＝１
式中：ｆ为站内负荷分配模型的目标函数；Ｑｔａｒｇｅｔ，ｔ为ｔ时刻目标流量；Ｑ（·）为发电耗流量函数，表示
发电耗流量与水头、机组出力之间的函数关系；Ｎ为ｔ时刻第ｉ台机组的出力；Ｈ为ｔ时刻发电水头；
ｉ，ｔｔ
ｎ为电站的机组总数；ｃ为当前时段机组开机台数与上一时段机组开机台数之差的绝对值；Ｑｐｕｂｌｉｓｈ为
ｔｏｔａｌ
机组启停机耗流量。
目标函数的核心是控制电站发电流量尽可能接近目标流量Ｑ。当以发电为主要任务需要 “控
ｔａｒｇｅｔ，ｔ
出力” 时，目标流量可设定为水电站满足生态、航运等要求的最小下泄流量（见式（２））；当以下游防
洪控制点的安全为主要任务需要 “控出库” 时，目标流量可设置为下游安全泄量（见式（３））；当以水
电站水库自身防洪为主要任务需要 “控水位” 时，目标流量可由式（４）计算，实现满足负荷指令的同

— １３６ —
４

75 76 77 78 79 80 81 82 83 84 85