Page 82 - 2024年第55卷第11期
P. 82
择失效,根据动作选取策略重新选择动作并判定,直至选择的动作满足要求。
( 3)奖励 r:表示智能体在完成一次动作后环境给予的即时回报。在每个决策阶段,RL模型需
根据环境状态 s执行动作 a,实现 负荷 在 选 定 机 组 间 的 调 整。 在 单 次 负 荷 调 整 结 束 后, 需 要 一 个
指标来评价当前调整动作的好坏程度,此指标即 为 奖 励 r。 本 文 使 用 机 组 负 荷 调 整 前 后 目 标 函 数
的差值作为奖励值。根据式( 1)定义的目标函数计算公式, 由 负 荷 调 整 动 作 产 生 的 奖 励 值 由 下 式
计算:
n total n total
-
-
r = Q target ∑ Q(N ,H) - Q target ∑ Q(N i,s j + 1 ,H) (11)
i,s j
i =1 i =1
式中:Q 为水库目标流量;s、s 为第 j次、第 j + 1 次智能体观测环境得到的环境状态值;H为电站
target j j + 1
n total
发电水头;N 为第 i台机组在 s状态下承担的负荷; ∑ Q(N ,H)为总发电耗流量。
i,s j j i,s j
i =1
( 4)策略 π (s,a):表示智能体面对状态 s时选取动作 a的方法。在深度 RL中,智能体必须具备
两种关键能力:①需要能够记忆并执行最优动作,即在给定状态下选择能够带来最大预期回报的动
作;②需要在面对未知或不确定的情况下进行探索,以便发现可能存在的更优策略。因此,设计深度
RL中的动作选取策略时,必须确保智能体在追求最优决策的同时,也能够保持一定的探索性,以实
现策略的持续改进和适应。因此,本文采用 ε - greedy 方法,该方法定义了一个介于 0到 1之间的探索
率 ε ,在选取动作时,智能体有 ε 的概率选取随机动作,有(1 - ε )的概率选取动作价值最大的最优动
作 [24] 。设定在模型训练过程中 ε 初期保持不变,之后随着学习轮次增加而减小。因此,智能体在学习
初期可大量探索未知状态和动作,减少重复采样,之后逐渐减少探索率,增加利用已学习到的知识的
可能性,实现探索和利用间的平衡,不断优化策略学习和收敛过程。动作价值由即时奖励 r与预期奖
励组成。因此,智能体决策时要兼顾执行当前动作后对目标函数的即时影响与对未来可能产生的影
响。价值由动作值函数 Q(s,a)定义(见式(12))。采用 Q(s,a) - γ maxQ(s ,a )作为对即时奖励 r
t + 1 t + 1
的估计,动作值函数 Q(s,a)迭代公式见式(13)。
Q(s,a) =r + γ Q(s ,a ) (12)
t
t
t + 1
t + 1
Q(s,a)′ = Q(s,a) + α [r + γ maxQ(s ,a ) - Q(s,a)] (13)
t + 1
t
t
t
t
t + 1
t
t
式中:a、a 为智能体针对 t时刻和 t + 1 时刻环境状态所采取的动作;γ为价值折扣因子;maxQ(s ,
t t + 1 t + 1
a )为在 s 状态下,由动作值函数 Q(s,a)计算得出智能体采取动作后能够获得的最大价值;α为学
t + 1 t + 1
习率。
2.3 DQN算法 作为 RL的经典算法之一,Q - Learning算法的核心是 Q - table(Q表)。Q表的行和列
分别代表了模型中所有可能的状态与动作,相应的数值表示在状态 s时采取动作 a后智能体得到奖励
的好坏程度。在智能体的学习训练过程中 Q表不断更新。训练完成后,模型可根据当前状态在 Q表中
查找并执行价值最高的动作,从而实现获得奖励的最大化。但 Q - Learning算法存在两个问题:首先是
维度问题,当模型的状态集或动作集过大时,Q表会迅速膨胀,难以有效更新或查询最优动作;其次
是 “高估” 问 题,算 法在更 新价 值函 数时采用 贪婪策略,易 高估 已采 样过 的动 作,从 而 影 响 训 练
效果。
由于水电站站内负荷优化分配问题动作繁多、状态复杂,Q - Learning算法难以有效处理。因此,
本文采用 DQN算法,将 Q - Learning算法与深度学习相结合。一方面,DQN算法继承了 Q - Learning单
步更新与离线学习的特点,使得模型训练速度较快、学习效率较高,同时可以根据历史资料自主学
习。另一方面,引入了深度学习中的人工神经网络,利用其计算输出某一状态下所有动作的价值,避
免了 Q - Learning算法中 Q表的建立与更新。因此,DQN算法具有更强的处理高维问题的能力,与水
电站站内负荷分配问题相契合。
在使用历史资料训练 DQN模型时,可利用经验回放和冻结 Q参数提高模型训练效率。经验回放
是指将智能体与环境交互后获得的电站状态 s、采取的负荷调整动作 a、计算得的奖励值 r与负荷调整
后的电站状态 s′组成一条数据,并将这些数据存储到记忆库中。在满足学习条件时,从记忆库中随机
4
— 1 3 8 —