Page 82 - 2024年第55卷第11期

P. 82

择失效，根据动作选取策略重新选择动作并判定，直至选择的动作满足要求。
（３）奖励ｒ：表示智能体在完成一次动作后环境给予的即时回报。在每个决策阶段，ＲＬ模型需
根据环境状态ｓ执行动作ａ，实现负荷在选定机组间的调整。在单次负荷调整结束后，需要一个
指标来评价当前调整动作的好坏程度，此指标即为奖励ｒ。本文使用机组负荷调整前后目标函数
的差值作为奖励值。根据式（１）定义的目标函数计算公式，由负荷调整动作产生的奖励值由下式
计算：
ｎｔｏｔａｌｎｔｏｔａｌ
－
－
ｒ＝Ｑｔａｒｇｅｔ ∑ Ｑ（Ｎ，Ｈ）－Ｑｔａｒｇｅｔ ∑ Ｑ（Ｎｉ，ｓｊ＋１，Ｈ）（１１）
ｉ，ｓｊ
ｉ＝１ｉ＝１
式中：Ｑ为水库目标流量；ｓ、ｓ为第ｊ次、第ｊ＋１次智能体观测环境得到的环境状态值；Ｈ为电站
ｔａｒｇｅｔｊｊ＋１
ｎｔｏｔａｌ
发电水头；Ｎ为第ｉ台机组在ｓ状态下承担的负荷； ∑ Ｑ（Ｎ，Ｈ）为总发电耗流量。
ｉ，ｓｊｊｉ，ｓｊ
ｉ＝１
（４）策略 π （ｓ，ａ）：表示智能体面对状态ｓ时选取动作ａ的方法。在深度ＲＬ中，智能体必须具备
两种关键能力：①需要能够记忆并执行最优动作，即在给定状态下选择能够带来最大预期回报的动
作；②需要在面对未知或不确定的情况下进行探索，以便发现可能存在的更优策略。因此，设计深度
ＲＬ中的动作选取策略时，必须确保智能体在追求最优决策的同时，也能够保持一定的探索性，以实
现策略的持续改进和适应。因此，本文采用 ε －ｇｒｅｅｄｙ方法，该方法定义了一个介于０到１之间的探索
率 ε ，在选取动作时，智能体有 ε 的概率选取随机动作，有（１－ ε ）的概率选取动作价值最大的最优动
作［２４］。设定在模型训练过程中 ε 初期保持不变，之后随着学习轮次增加而减小。因此，智能体在学习
初期可大量探索未知状态和动作，减少重复采样，之后逐渐减少探索率，增加利用已学习到的知识的
可能性，实现探索和利用间的平衡，不断优化策略学习和收敛过程。动作价值由即时奖励ｒ与预期奖
励组成。因此，智能体决策时要兼顾执行当前动作后对目标函数的即时影响与对未来可能产生的影
响。价值由动作值函数Ｑ（ｓ，ａ）定义（见式（１２））。采用Ｑ（ｓ，ａ）－ γ ｍａｘＱ（ｓ，ａ）作为对即时奖励ｒ
ｔ＋１ｔ＋１
的估计，动作值函数Ｑ（ｓ，ａ）迭代公式见式（１３）。
Ｑ（ｓ，ａ）＝ｒ＋ γ Ｑ（ｓ，ａ）（１２）
ｔ
ｔ
ｔ＋１
ｔ＋１
Ｑ（ｓ，ａ）′ ＝Ｑ（ｓ，ａ）＋ α ［ｒ＋ γ ｍａｘＱ（ｓ，ａ）－Ｑ（ｓ，ａ）］（１３）
ｔ＋１
ｔ
ｔ
ｔ
ｔ
ｔ＋１
ｔ
ｔ
式中：ａ、ａ为智能体针对ｔ时刻和ｔ＋１时刻环境状态所采取的动作；γ为价值折扣因子；ｍａｘＱ（ｓ，
ｔｔ＋１ｔ＋１
ａ）为在ｓ状态下，由动作值函数Ｑ（ｓ，ａ）计算得出智能体采取动作后能够获得的最大价值；α为学
ｔ＋１ｔ＋１
习率。
２．３ＤＱＮ算法作为ＲＬ的经典算法之一，Ｑ－Ｌｅａｒｎｉｎｇ算法的核心是Ｑ－ｔａｂｌｅ（Ｑ表）。Ｑ表的行和列
分别代表了模型中所有可能的状态与动作，相应的数值表示在状态ｓ时采取动作ａ后智能体得到奖励
的好坏程度。在智能体的学习训练过程中Ｑ表不断更新。训练完成后，模型可根据当前状态在Ｑ表中
查找并执行价值最高的动作，从而实现获得奖励的最大化。但Ｑ－Ｌｅａｒｎｉｎｇ算法存在两个问题：首先是
维度问题，当模型的状态集或动作集过大时，Ｑ表会迅速膨胀，难以有效更新或查询最优动作；其次
是 “高估” 问题，算法在更新价值函数时采用贪婪策略，易高估已采样过的动作，从而影响训练
效果。
由于水电站站内负荷优化分配问题动作繁多、状态复杂，Ｑ－Ｌｅａｒｎｉｎｇ算法难以有效处理。因此，
本文采用ＤＱＮ算法，将Ｑ－Ｌｅａｒｎｉｎｇ算法与深度学习相结合。一方面，ＤＱＮ算法继承了Ｑ－Ｌｅａｒｎｉｎｇ单
步更新与离线学习的特点，使得模型训练速度较快、学习效率较高，同时可以根据历史资料自主学
习。另一方面，引入了深度学习中的人工神经网络，利用其计算输出某一状态下所有动作的价值，避
免了Ｑ－Ｌｅａｒｎｉｎｇ算法中Ｑ表的建立与更新。因此，ＤＱＮ算法具有更强的处理高维问题的能力，与水
电站站内负荷分配问题相契合。
在使用历史资料训练ＤＱＮ模型时，可利用经验回放和冻结Ｑ参数提高模型训练效率。经验回放
是指将智能体与环境交互后获得的电站状态ｓ、采取的负荷调整动作ａ、计算得的奖励值ｒ与负荷调整
后的电站状态ｓ′组成一条数据，并将这些数据存储到记忆库中。在满足学习条件时，从记忆库中随机

４
— １３８ —

77 78 79 80 81 82 83 84 85 86 87