変化点のあるポアソン分布のパラメータの最尤推定

モデル

変化点のあるポアソン分布についてはいろんな研究がなされていますが、一番単純と思われる手法を試します。

解析対称はイギリスの炭鉱事故の発生件数のデータです。

3. Tutorial — PyMC 2.3.6 documentationから取得しました。

#R のコード
dat <- c(4,5,4,0,1,4,3,4,0,6,3,3,4,0,2,6,3,3,5,4,5,3,1,4,4,1,5,5,3,4,2,5,2,2,3,4,2,1,3,2,2,1,1,1,1,3,0,0,1,0,1,1,0,0,3,1,0,3,2,2,0,1,1,1,0,1,0,1,0,0,0,2,1,0,0,0,1,1,0,2,3,3,1,1,2,1,1,1,1,2,4,2,0,0,1,4,0,0,0,1,0,0,0,0,0,1,0,0,1,0,1)
plot(dat,type="h",ylab="frequency")

f:id:abrahamcow:20151029003418p:plain

40年ごろを境に事故の発生件数が減少していることが伺えるので、その変化を抽出できるようなモデルを考えます。

事故の発生件数はポアソン分布に従うと仮定し、ある時期を境にポアソン分布の平均が変化したと考えると良さそうです。

そこで i年目の事故の発生件数を x_i とし、 x_i はパラメータ $\theta_i$ のポアソン分布に従うというモデルを立てました（ $i=1,\ldots,T$ ）。

ただし $\theta _t$ は $t <\tau$ のとき $\theta_1$ 、そうでなければ $\theta_2$ の値を取ります。

このモデルのもとで、尤度関数は下のようになります。

$\displaystyle L_1 = \prod_{i=1}^{\tau} \frac{\theta _1^{x_i}e^{-\theta_1}}{x_i !} \prod_{j=\tau+1}^{n} \frac{\theta _1^{x_i}e^{-\theta_1}}{x_i !}$

対数をとり整理すると、

$\displaystyle \log L_1 = S_{\tau} \log \theta _1 +(S_T-S_\tau) \log \theta _2 - \theta _1 \tau - \theta _2 (T-\tau) -\sum_{i=1}^{T} \log (x_i !)$

となります。
ただしここで $S_t=x_1 + \cdots + x_t$ です。

$\log L_1$ に $\theta _1$ 、 $\theta_2$ の最尤推定量をそれぞれ代入して、

$\displaystyle l_1(\tau) = S_T \log(S_T/\tau)\\ \displaystyle ~~~~+(S_T-S_\tau)\log\{ (S_T-S_\tau)/(T-\tau\}-S_T-\sum_{i=1}^{T}\log (x_i !)$

l_1 を $\tau$ について最大化することで、変化点の推定値が求まります。

コーディング

which.max 関数を使い、総当りで l_1 を最大にする $\tau$ を求めることにします。

x <- dat
n <- length(x)
ST <- sum(x)
l1_tau <-function(tau){
  Stau <- sum(x[1:tau])
  Stau*log(Stau/tau)+(ST-Stau)*log((ST-Stau)/(n-tau))}
tau <-which.max(sapply(1:(n-1),l1_tau))

$\tau$ は41でした。

> tau
[1]41

$\theta _1$ 、 $\theta_2$ の最尤推定値はそれぞれ、3.01、0.91でした。

> theta1 <-mean(x[1:tau])> theta2 <-mean(x[(tau+1):n])> theta1
[1]3.097561> theta2
[1]0.9142857

f:id:abrahamcow:20151128152033p:plain

plot(x,type="h",lwd=2)
curve(ifelse(x>tau,theta2,theta1),add=TRUE,col="royalblue",lwd=2)

尤度比検定

変化点がないと仮定した場合の対数尤度、

$\displaystyle l_0 = S_T \log (S_T/T) -S_T - \sum_{i=1}^{T} \log( x_i!)$

と l_1 の差を評価することで、尤度比検定を行うことができます。

-2 (l_0 -l_1) は漸近的に自由度 3 - 1 = 2 のカイ二乗分布に従います。

3 - 1 = 2 は変化点のあるモデルのパラメータ数 - 変化点のないモデルのパラメータ数です。

l0 <-ST*log(ST/n)- ST - sum(log(factorial(x)))
Stau <- sum(x[1:tau])
l1 <- Stau*log(Stau/tau)+(ST-Stau)*log((ST-Stau)/(n-tau))- ST - sum(lfactorial(x))

p 値は以下のように求まります。

> pchisq(-2*(l0-l1),2,lower.tail =FALSE)[1]1.418789e-15

有意水準を 5% と決めていたとすると、「パラメータを増やすことによって尤度が改善していない」という帰無仮説が棄却され、変化点があるとみなしたほうがいいことがわかります。

参考文献

Henderson & Matthews (1993) は 2 節で本エントリと同じ手法を用いている。
- An Investigation of Changepoints in the Annual Number of Cases of Haemolytic Uraemic Syndrome on JSTOR
尤度比検定については『データ解析のための統計モデリング入門』、『入門・演習数理統計』などが参考になる。
RStanで離散パラメータを含むモデルの推定（disaster model） - 廿TTでは同じデータを扱ってベイズ推定を行った。
変化点のあるポアソン過程のパラメータの最尤推定 - 廿TTでも似たようなことやってる。

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)

作者:久保拓弥
出版社/メーカー:岩波書店
発売日: 2012/05/19
メディア:単行本
購入: 16人クリック: 163回
この商品を含むブログ (25件) を見る

入門・演習数理統計

作者:野田一雄,宮岡悦良
出版社/メーカー:共立出版
発売日: 1990/05
メディア:単行本
クリック: 4回
この商品を含むブログ (2件) を見る

変化点のあるポアソン分布のパラメータの最尤推定

モデル

コーディング

尤度比検定

参考文献

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？