Page 45 - 2022年第53卷第10期
P. 45
=
λ λ
1 ≤λ ≤n - 1,使得 θ 1 = … = θ = η 1 ,θ + 1 = … = θ n η 2 且 η 1 ≠η 2 。
如果零假设被拒绝,那么 λ 就是相依结构的变异点。假设变异点 λ = λ是已知的,零假设 H 被
0
拒绝。
基于 Copula函数的似然比 Λ 的检验统计量如下:
λ
^ ∏ c(u ^)
i η 0
n
L( η 0 ) 1 ≤i ≤n
Λ = = (2)
λ
^ ^
i η 1 ∏
i η 2
L( η 1 )L ( η 2 ) ∏ c(u ^) c(u ^)
λ n - λ
1 ≤i ≤λ λ + 1 ≤i ≤n
式中:L(·)为零假设下整个系列的似然函数;L(·)和 L (·)分别为系列达到 λ 和在 λ 之后的似
n λ n - λ
的最大似然估计。
然函数;c(·)为 Copula的密度函数; ^、 ^、 ^ 分别为 η 0 、η 1 、η 2
η 0 η 1 η 2
似然比统计量的对数形式如下:
- 2ln( Λ ) =2{ln[L( ^)] + ln[L ( ^)] - ln[L( ^)]} (3)
λ λ η 1 n - λ η 2 n η 0
变异点一般未知:
Z = max{ - 2ln ( Λ )} (4)
n
λ
1 ≤λ≤n - 1
1?2
统计量 Z 的近似分布可使用 MonteCarlo方法估算得到。文献[33]中给出了不同样本容量不同显
n
著性水平下 Z的边界值,当样本容量为 50时,5%显著性水平下 Z的边界值近似为 8.8,本文样本序
n
n
列为 51a,就近取 Z边界值为 8.8 [34] 。对数似然比统计量- 2ln ( Λ )本文以 Z表示,判定变异点时需同
λ
n
时满足以下两个条件:(1)对应 Z统计量在 Z序列中绝对值最大;(2)对应 Z统计量的绝对值超过 Z
的边界值。
CLR法具体实施时需将待检测的气象或水文干旱历时 - 烈度序列以某一年为截止断开为两段,对
两个子序列以 Copula函数拟合联合分布,计算该年的 Z值,然后向后移动一年,继续以上步骤,因此
一开始几年和最后几年是无法得到 Z值的,过短的序列无法以 Copula函数拟合联合分布。本文气象或
水文干旱 Z序列为 1968—2005年。
3.3 随机森林法 随机森林法是一种自助(bootstrap)抽样技术。首先,从 N个原始样本集中有放回抽
取 n个样本;其 次,从 所 有 属 性 中 选 取 k个 属 性,选 择 最 佳 分 割 属 性 作 为 节 点 创 建 决 策 树,通 过
Bagging算法训练得到 n个决策树;最后,对所有决策树的建模结果投票得到最终结果 [35] 。随机森林
算法易于实现、计算开销小、性能强大,具体介绍见文献[36]。随机森林回归模型不能得到自变量的
回归系数,而是通过均方误差的平均递减(%IncMSE)和模型精度的平均递减(IncNodePurity)两个指标
评价自变量对因变量的影响程度。本文通过 R语言 randomForest包实现随机森林算法对样本数据的
模拟。
4 结果与讨论
4.1 水文干旱历时、烈度的趋势、变异检验 使用华县、张 表 1 M- K趋势检验表
家山、状头站 1960—2010年实测径流数据,基于 SRI和游程 水文站 干旱历时 干旱烈度
理论得到渭河流域水文干旱的历时和烈度值,绘制其曲线图如
华县 1.18 1.50
图 2所示。结 合 M- K趋 势 检 验 法 分 析 (表 1),华 县 站 历 时、
张家山 - 1.03 - 1.10
烈度呈不显著的上升趋势,张家山站历时、烈度呈不显著的下 状头 2.59 1) 3.08 1)
降趋 势,状 头 站 历 时、烈度 M- K法统计 量绝 对值大于 阈 值
注:1)代表通过了 95%的置信度检验。
- 1
1.96,呈显著上升趋势,分别为 0.114月?a与 0.0804a 。
进一步采用启发式分割法对 3站水文干旱历时、烈度进行变异检验,取 P = 0.95 ,L= 25 (L为序
0 0 0
列分割长度),结果如图 3所示。可以看出 3站历时、烈度 T值趋势大致相同,华县站历时在 1994年
T取得最大值,此时 P(T ) =0.9893> P,即该站历时在 1994年发生变异,同理可得华县站烈度、状
max 0
头站历时、状头站烈度的变异点为 1971年、1994年、1993年,张家山站历时、烈度 P(T )<P,不
max 0
— 1 8 3 —
1