仮説検定
Albert (2008) "Streaky Hitting in Baseball"ではベータ二項分布を用いて野球選手の調子の波を評価した。
Albert (2008) 打者の調子の波のモデル化 - 廿TT
下記はカルロス・ギーエンという選手の2005年の打撃成績のデータで、ヒットを 1、アウトを 0 とコード化してある。
GuillenC <- c(0,1,0,1,1,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,1,1,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,0,1,0,1,0,0,1,1,0,1,0,1,1,0,1,0,1,1,0,0,0,0,0,1,1,1,1,0,0,1,0,1,0,0,1,1,0,0,0,1,0,1,0,0,0,1,1,1,0,1,1,1,1,0,0,1,1,1,1,0,0,1,0,0,1,0,1,0,0,0,1,0,1,0,0,0,0,0,1,1,1,0,0,1,0,0,0,0,0,0,1,1,1,0,1,0,0,0,0,1,1,1,1,0,1,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,1,1,0,1,0,0,0,0,0,0,0,0,0,1,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,1,1,0,1,0,0,1,0,0,0,1,0,1,0,0,0,0,0,0,0,0,1,0,1,0,0,1,1,1,1,0,0,0,0,0,1,1,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,1,0,0,0,1,1,0,0,1,0,0,0,1,0,0,0,0,1,0,0,0,0,1,1,0,1,1,1,0,1,0,0,0,0,0,1,0,1,1,0,0,0,1,0,0,0,1)
調子の波が存在しない選手は、常にコンスタントな打率でヒットを出すから、その打撃成績を上記のように 0 か 1 かに符号化すると、それはベルヌーイ過程になる。
帰無仮説:
“ギーエンの0-1のプロセスがベルヌーイ過程である。”
対立仮説:
“ギーエンの0-1のプロセスがベルヌーイ過程でない。”
として、仮説検定ができないだろうか。
ベルヌーイ試行で 1 が出るまでの待ち時間の分布は幾何分布になる。
ギーエンの場合、1 が出るまでの待ち時間(打席数)の最大値は 19 だった。
Image may be NSFW.
Clik here to view.
spacings <-diff(which(c(1,GuillenC)==1))-1#1が出るまでの待ち打席数 plot(table(spacings))
幾何分布の最大値の分布を帰無分布として、ギーエンの 19 という数字が得られる確率が十分に小さければ、ギーエンには調子の波が存在すると言えそうである。
帰無仮説の下で最大値が 19 以上(18を超える)になる確率が p-値になる。
n個の標本の最大値が x以下である確率は、
Image may be NSFW.
Clik here to view.
で与えられる。
幾何分布のパラメータの最尤推定量は、
Image may be NSFW.
Clik here to view.
である。
phat <-1/(1+mean(spacings)) n=length(spacings)1-pgeom(18,phat)^n
p-値は 0.067 で、通例使われる有意水準5%では、帰無仮説は棄却されず、ギーエンに調子の波が存在すると考える必要性はあまりなさそうだ。
ベータ幾何分布
ふつうの幾何分布では、ベルヌーイ試行の成功確率 pは一定だが、ベータ幾何分布は各試行ごとに pが変化すると解釈できる。
ベータ幾何分布の確率関数は、
Image may be NSFW.
Clik here to view.
で与えられる。ここで Bはベータ関数
これを、
Image may be NSFW.
Clik here to view.
Image may be NSFW.
Clik here to view.
と改めてパラメタライズすることで、ηは打率の中心を決めるパラメータ、Kは打率の精度を決めるパラメータと解釈できる。
Kが大きいほどばらつきが小さくなる。
最尤推定でベータ幾何分布のパラメータを推定し、ふつうの幾何分布と当てはまりを比較する。
library(VGAM) dbetageom2 <-function(x,K,eta,log=FALSE){ dbetageom(x,K*eta,K*(1-eta),log = log)} points(0:19,dgeom(0:19,phat)*n,type="b",pch=4,col="red") LL <-function(par){sum(dbetageom2(spacings,par[1],par[2],log =TRUE))} fitbetageom <- optim(c(1,0.1),LL,control =list(fnscale=-1)) points(0:19,dbetageom2(0:19,fitbetageom$par[1],fitbetageom$par[2])*n,type="b",pch=4,col="blue") legend("topright",legend=c("beta","beta-geometric"),pch=c(4,4),col=c("red","blue"))
Image may be NSFW.
Clik here to view.
パラメータの推定値は、それぞれ、
Image may be NSFW.
Clik here to view.
だった。
AICは、
- 幾何分布:420.93
- ベータ幾何分布:421.67
だった。
-2*sum(dgeom(spacings,phat,log =TRUE))+2-2*fitbetageom$value+2*2
わざわざベータ幾何分布を使ってモデルを複雑にしなくても、ふつうの幾何分布で間に合う。
やはり、ギーエンに調子の波が存在すると考える必要性はあまりなさそうだ。
ただし Albert (2008) "Streaky Hitting in Baseball"ではベータ二項分布を用いてベイズファクターを求め、このエントリとは逆の結論を導いている。
https://www.stat.berkeley.edu/~aldous/157/Papers/albert_streaky.pdf