目次
前置き
分散分析(analysis of variance, ANOVA)は複数のグループの平均に統計学的に優位な差があるかを調べる方法である. この文章では分散分析のF検定の検定統計量が数学的にどのように導出されるかを説明する. ここでは, 検定統計量の数学的な導出にフォーカスし, 分散分析自体についての説明はしない. これは, 分散分析を学び始める人にとってはこの内容は過度に詳細だろうし, 一定の理解がある人にとっては一からの説明は恐らく冗長だからだ.
このような古典的な内容をなぜ改めて書くのかを簡単に説明する. 私は最近, 数理統計学を勉強している. 私の読んでいるテキスト[久保川]では1, 分散分析の概要と、F検定で等平均性をテストする方法が説明されているが, その統計量が何故F分布に従うかは書かれていなかった. そこで, 他の手持ちのテキストやウェブ上で色々と調べてみたが, 検定統計量の導出を解説した文章はあまりなく, あったとしても長大なテキストの一部だったり, 線形回帰モデル(もしくは, ガウス・マルコフモデル)の応用として軽く触れられているだけで詳細は省略されていたりした. 最終的には, [吉田], [ラオ]の中に厳密な導出を見つけることができたが, 前者は洗練されているがやや直感的に理解しにくく, 後者は一部証明が理解できなかった. ともあれ, これらを通じて導出の概要はわかり, [吉田]の方法をやや素朴にした(つまり, 洗練度を減じた)方法で証明を与えることができたので, その内容をまとめておくことにした.
また, ここで説明するアプローチは少し天下り的だが, 尤度比検定を出発点として自然にこのアプローチに至る道筋を以下の記事で説明したので, 興味があれば, 追って読んでほしい.
今回の内容は, self-contained に説明するのは骨が折れるので, いくつかの命題は証明せずに用いる. といっても, それらはどれも適切な予備知識があれば, 容易に証明は理解できるものばかりである. 具体的には非心カイ二乗分布と分布の特性関数についての基本的な知識があれば十分である. それらを除けば, 必要な道具は基本的には, 学部一回生レベルの線形代数, 微分積分であり, これらは前提知識として断りなく用いる.
ここからの内容のアウトラインを説明する. まず準備として, 線形代数から単純ながらも鍵となる命題を2つ思い出し, 今回の議論で中心的な役割を果たすフィッシャー・コクランの定理を証明なしで述べる. 次に, ガウス・マルコフモデルを導入する. これは分散分析モデルを含む, より一般的なモデルであり, これに対し, 制約つき最小二乗値の従う分布を導出する. 最後に, ガウス・マルコフモデルに対して得た結果を分散分析モデルに適用することで, よく知られているF検定の検定統計量が導出されることを示す.
準備
まず, 線形代数から2つの命題を準備する. いずれもほぼ常識と言える命題である.
以下では, 線形代数の標準的と思われる表記法は断りなく用いる. ベクトル空間は常に適切な次元のユークリッド空間とし, 内積は常に標準内積を考えるものとする. また, 行列とそれの定める線形変換を同一視する. つまり, 行列から定まる線形変換のことを線形変換と書いたり, その変換の像のことをと書いたりする. 行列の転置をとかく.
1つ目の命題は内積と行列の転置の基本的な関係についてである.
命題1 行列に対し, .
証明 ベクトルに対し, なら, . は任意に取れるので, . 逆に, なら, . は任意より, . つまり, . (証明終わり)
線形変換が, を満たすとき, 直交射影という. 部分空間がの像であるとき, をへの射影という. 2つ目の命題は, 直交射影が任意のベクトルを射影の像に最も近い点に移すことを示すものである.
命題2
を部分空間への直交射影とするとき, 任意のに対し,
証明
任意のに対し, ここで, より, . よって, . (証明終わり)
次に, フィッシャー・コクランの定理と呼ばれる定理を紹介する. これは分散分析の検定統計量の導出において, 最も基本的な役割を果たす定理で, 単位行列の分解とガウス確率変数の二次形式の関係を示している. 自由度, 非心度の非心カイ二乗分布をと書く. 非心カイ二乗分布については例えば, [吉田], Wikipedia 参照. ただし, Wikipedia の日本語版記事はかなり内容が薄いので, 英語版を勧める.
注意: 非心カイ二乗分布はややマイナーであり, また, その確率密度関数には無限和が表れ, 厄介そうに見えるかもしれない. しかし, カイ二乗分布と同様の再生性をもち, 特性関数(もしくはモーメント母関数)もかなり単純で, 意外に扱いやすい対象である.
を次元のガウス確率変数で平均ベクトル, 分散共分散行列 ( は n次単位行列) をもつものとする.
定理1 (フィッシャー・コクランの定理)
をn次対称行列で, を満たすものとする. , とする. このとき, 以下は同値:
- 各に対し, あるが存在し, かつは独立.
- .
- 各に対し, .
- 各, に対し, ( はゼロ行列).
またこのとき, , .
証明は省略する. 例えば, [吉田]参照. 以下で用いるのは, 次の系で与えられる, この定理の特別な場合のみである.
系1
, を上の直交射影とする. , , とする. このとき, 以下が成立:
- .
- とが互いに直交するとき, つまり, のとき, とは独立.
証明
(i): 分解は明らかにを満たすので, フィッシャー・コクランの定理からがわかる.
(ii): 直交性の仮定から, . よって, 分解にフィッシャー・コクランの定理を適用することでわかる. (証明終わり)
この系も含め, 以下では単にフィッシャー・コクランの定理と呼ぶ.
ガウス・マルコフモデル
ガウス・マルコフモデルとは, 観測値がいくつかの説明変数の線型結合と誤差との和によって与えられるとするモデルである. より具体的には, 個の観測値が与えられたとき, それぞれの観測値は個の説明変数の線形関係によって生成されると考え, そして, 観測には誤差が伴うとしたものである. また, 誤差は独立同分布で分散の正規分布に従うとする. つまり, 以下の観測値ベクトルと計画行列は, あるパラメータベクトルと誤差ベクトルに対し, 以下のような関係を満たすとする:
ここで,
で, は独立同分布で平均, 分散の正規分布に従うとする. とは既知の値として扱い, パラメータと分散は未知の値である. を仮定する. これは全く制限的な仮定ではない. またいくつかのテキストでは仮定されているようだが, ここではがフルランクであること, つまり, は仮定しない. これを仮定すると分散分析モデルに適用できないためである.
ガウス・マルコフモデルは分散分析モデルよりも一般的なモデルである. 例えば, 1つの因子が3つの水準をもつ一元配置モデル とするとき,
とすればよい.
行列行列はかつを満たすとし, またとする. このとき, 以下の帰無仮説, 対立仮説の検定を考える:
線形制約条件はパラメータ間に制約を与える. 例えば上の一元配置の例で,
とすると, はと同値であり, 3つのパラメータが等しいという制約条件である. よって, をこのようにとれば, 帰無仮説, 対立仮説による検定は一元配置の等平均性の検定と一致する.
線形制約条件つき最小二乗法からのF検定の導出
を満たすをつ固定し, とする. , の真値を, とする. 次の定理が最も重要である. 制約条件つきの最小二乗値が非心カイ二乗分布に従うことを示している.
定理2
以下を定める:
このとき,
ここで, は直交射影で, その像は
で与えられ, . よって, は非心度, 自由度の非心カイ二乗分布に従う.
証明
まず, より, である. より, の基底をつとり, とし, この基底を並べて作った行列とすると, を満たすの集合は である. よって, . 命題2より, . ここで, はへの直交射影. よって, が(*)で与えられ, であることを示せばよい.
はの基底を並べた行列なので, . よって, ただし, は線型写像の定義域を部分空間に制限したものである. これより, が(*)に一致することがわかる. であることを思い出すと,
よって, . ゆえに, . 最後の主張はフィッシャー・コクランの定理の直接的な帰結である. (証明終わり)
次に, と定めると, 命題2より, ただし, はへの直交射影. よって, フィッシャー・コクランの定理より, は自由度のカイ二乗分布に従う. ここで非心度がとなるのは, だからである. また明らかに, である. これより,
である. 定義から明らかに, であるから, は自由度, 非心度の非心カイ二乗分布に従う. また, とは互いに直交する直交射影であるから, フィッシャー・コクランの定理より, とは独立である. 以上より,
は自由度, , 非心度の非心分布に従うことがわかった. 非心F分布については例えば, 英語版のWikipedia 参照 (日本語版記事は無いようである).
これで帰無仮説, 対立仮説の場合の検定統計量が構成できたように見えるが, の非心度には知ることのできない分散の真値が含まれている. しかし, これは帰無仮説の下ではになるので問題はない.
命題3
の真値が帰無仮説を満たすとする. すなわち, とする. このとき,
証明
より, . よって, . (証明終わり)
よって, 帰無仮説の下ではは非心度の通常の分布に従うことがわかり, はとのみから計算できるので, これで帰無仮説, 対立仮説の検定を行うことができる.
分散分析のF検定の導出
前節までの結果を用いて, 二元配置の分散分析モデルで交互作用のない場合の検定量を導出する. より複雑な分散分析モデルでも, 計算が多少複雑になるだけで同様に導出できる. モデルは以下で与えられる:
これがどのようなガウス・マルコフモデルに対応するかを念のため述べておく. 例えば, , のときは,
と定めればよい. このように定めるとき, 掃き出し法により, がわかる(やや計算と考察を要する).2
このとき, 以下の帰無仮説, 対立仮説の検定を考える:
既にみたように帰無仮説は適当な行列を用いた線形制約条件で表現することができる. また, 容易にがわかる.
前節の結果より, 検定を行うには,
を求め, 自由度, の分布に従う確率変数
の値が棄却域に入るか否かで検定を行えばよい. , の値は, 例えば偏微分するなどの通常の方法で求めることができ,
がわかる. ただしここで,
また容易に以下がわかる:
よって,
以上より,
これは分散分析において通常用いられている検定量であるから, これで分散分析の検定統計量が分布に従うことが証明できた.
最後にややどうでもいいコメントをしておくと, 交互作用のない二元配置ぐらいの比較的単純なモデルならば, との式を展開し, , なる直交射影を具体的に求め, それらに対してフィッシャー・コクランの定理を適用することで, 確率変数が分布に従うことを示すことができる. ただし, このような力技はモデルが複雑になるにつれて破綻するように思える.3 一方で, 今回の方法はモデルが複雑化してもそこまで難しくはならないし, 検定統計量の具体系が予めわかっていなくても, 最小値問題を解くことで機械的に検定量を導出できるという点で利点がある.
参考文献
・[久保川]: 久保川達也. 現代数理統計学の基礎. 共立出版, 2017.
・[吉田]: 吉田朋広. 数理統計学. 朝倉書店, 2006.
・[ラオ]: ラオ, C. ラダクリシュナ. 統計的推測とその応用. 東京図書, 1986.