どのように大きな集団に統計的解析を適用するか?

統計調査では、母集団の特徴をつかむため、データを抽出し、そこから平均値や分散といった情報を導く。母集団全体を調査できることもある(全数調査)が、コストと時間がかかり、現実的には無作為に標本を抽出することが多い。

この母集団に確率分布(二項分布やポアソン分布、正規分布など)を想定し、得られたデータの一つ一つが確率分布の確率変数であると考える。確率変数はしばしば大文字の\(X_i\)で示すのに対して、この確率変数の実現値(出目)であるデータは小文字の\(x_i\)で表す。

\(X_1,\dots,X_n\)がランダムサンプルである場合、①\(X_1,\dots,X_n\)が互いに独立して分布している、②すべての確率変数が同一の分布\(F\)に従うという2つの条件が必要になる。①とは、\(X_1\)の実現値は、ほかの確率変数の出目に影響を与えないということだ。サイコロを振って出た目の数を記録する試行などがこれにあたる(1回目にどんな目が出ても、2回目、3回目の試行に影響がない)。これに対して、ある年\(t\)年の人口を\(X_t\)とおくと、\(X_t,X_{t+1},\dots\)は独立ではない。なぜなら、ある年の人口は去年の人口に左右されるためである。

確率変数が①、②の条件を満たすとき、\(X\)は互いに独立に同一分布に従うといい、independently and identically distributedの頭文字を取って\(iid\)とも表記する。

母集団の性質

母集団の平均・分散をぞれぞれ母平均、母分散といい、よく\(\mu\)\(\sigma^2\)で表される。母平均や母分散といった母集団の特性値を母数という。

さて、母数は一般に未知であることが多く、多くの場合、母数を推定することが統計学の1つのゴールとなる。母数を推定するために、ランダムサンプリングされた標本(\(X_1,\dots,X_n\))を用いることになる。

標本分布

母数を調べるための材料としてサンプリングされたデータ(確率変数)が与えられる。標本に基づいた関数で母数を含まないものを統計量といい、標本平均\(\overline{X}\)や、標本分散\(S^2\)、普遍分散\(V^2\)などが知られている。ただし、

\[ \overline{X} = \frac{\sum_{i=1}^n{}X_i}{n}\\ S^2 = \frac{\sum_{i=1}^n{}(X_i-\overline{X})^2}{n}\\ V^2 = \frac{\sum_{i=1}^n{}(X_i-\overline{X})^2}{n-1} \]

である。

母平均が\(\mu\)、母分散が\(\sigma^2\)である母集団からランダムサンプリングされたデータ\(X\)を扱うとき、

\[ \mu = \overline{X}\\ \sigma^2 = V^2 \]

で推定される。

母平均と母分散を推定できることの証明

\(\overline{X},\ V^2\)の期待値が母平均と母分散に一致することを示す。まず母平均-標本平均は簡単で、

\[ E[\overline{X}] = \frac{\sum_{i=1}^{n}E[X_i]}{n}\\ =\mu \]

また、この後の証明に使うのでついでに標本平均の分散も求めておく。\(a\)を定数とすると\(V[aX]=a^2V[x]\)となることを利用して

\[ V[\overline{X}] = \frac{\sum_{i=1}^{n}V[X_i]}{n^2}\\ = \frac{\sigma^2}{n} \]

となる。 次に母分散-不変分散を示す。

\[ E[V^2] = \frac{E[\sum_{i=1}^n{}(X_i-\overline{X})^2]}{n-1} \]

となる。ここで、分子の総和部分に関して以下のように恣意的に変形する(各自展開して恒等式が成り立つことを確認されたい)。

\[ \sum_{i=1}^n{}(X_i-\overline{X})^2 = \sum_{i=1}^n{}(X_i-\mu)^2 - n(\overline{X}-\mu)^2 \]

\[\begin{eqnarray} E[V^2] &=& \frac{E[\sum_{i=1}^n{}(X_i-\overline{X})^2]}{n-1}\\ &=& \frac{E[\sum_{i=1}^n{}(X_i-\mu)^2] - E[n(\overline{X}-\mu)^2]}{n-1}\\ &=& \frac{\sum_{i=1}^n{}E[(X_i-\mu)^2] - nE[(\overline{X}-\mu)^2]}{n-1}\\ \end{eqnarray}\]

ここで、\(E[(X_i-\mu)^2]\)\(X\)の分散の定義に等しく\(E[(X_i-\mu)^2] = V[X_i] = \sigma^2\)\(E[(\overline{X}-\mu)^2]\)は先に導出した\(\overline{X}\)の分散であり、\(E[(\overline{X}-\mu)^2] = \frac{\sigma^2}{n}\)である。これを代入すると

\[ E[V^2] = \sigma^2 \]

なぜ標本分散ではなく、普遍分散なのか

なぜ\(n\)ではなく\(n-1\)で割るのか、という点について数式ベースでの証明を紹介した。視覚的な説明は ここ ここ が詳しい。

簡単に説明すると、標本データを使って算出した標本分散は、母平均ではなく標本平均を計算に用いていることに原因がある。ほとんどの場合、標本平均は大なり小なり母平均からはズレる(母平均とピッタリ一致するのは非常に稀)。すると、標本平均は母集団全体の平均というよりもむしろ、標本データにフィットした平均ということになる。したがって、標本データから導いた標本分散は母集団全体の分散よりも、標本データに寄り添った分散になっているということだ。これは、標本分散が母分散と比べて過小評価されているということに他ならない。

ジカオページでは、統計ソフトRを使ってさらに詳しく検証していく。まず、\(N(0,1)\)に従う確率変数をいくつか生成し、これを母集団とする。次に、母集団から1%の割合でランダムにサンプリングを行い、得られた変数を標本空間とする。母集団から母分散、標本から標本分散と不偏分散を計算し、これを記録する。さらに、サンプリングにおける揺らぎを考慮し、分散の計算を10回繰り返す。これを母集団サイズ\(10\leq{}n\leq{}6000\)の範囲で検証したものを以下に示す。

1つ目の図では各母集団サイズで複数回シミュレーションを行い、平均を\(y=1\)付近の濃い線で、1回ごとのシミュレーション結果を薄い色で表示した。2番目の図では、シミュレーション結果の平均だけを抜き出して簡明に表示した。両方の図に付記した水平線に関しての説明は後述する。

全体的な傾向として、標本分散の方が不変分散よりも小さい値を取ることが分かる。\(y=1\)の上側に赤色、下側に緑色のグラフが卓越して見えることからも明らかである。また、分散のばらつきは、母分散が最も小さく、他2つは同程度である。さて、標本分散、不偏分散のばらつきは母集団サイズを大きくすると(x軸が大きくなると)だんだん小さくなっていき、母集団サイズ6000では0.8~1.2の範囲に収まる。逆に、母集団サイズが小さいx軸左側では、標本分散、不偏分散ともに0.6~1.4の範囲で分布し分散の推定精度が悪い。

母集団サイズごとのシミュレーション結果を平均したものが、2つ目のグラフに示されている。この結果からは、上側に赤色(不偏分散)、下側に緑色(標本分散)が分布しているということは分かるが、どちらがどれくらい母分散(青色)に近いのか、わかりにくい。

そこで、グラフに現れる分散のプロットを図形と解釈し、そのy軸重心を取ったものが、\(y=1.0\)付近に追記した水平線である。水平線同士の距離を見ると、母分散に近いのは明らかに不偏分散であると分かる!!(また、標本分散を母分散の推定量とするのが好ましくないことも理解できるだろう。明らかに他2本の水平線と離れている)

今回は母集団から1%のサイズでサンプリングを行ったが、この割合を増やすことで(サンプリング数を増やすことで)母分散と標本分散との誤差を縮めることができる。また、母集団サイズそのものを増やすことでも誤差を縮めることが可能だ( ここ でサンプルサイズの割合を変えて挙動を観察してみよう。 )。

一方で、標本サイズが小さいときには標本分散と不偏分散との違いは顕著に表れてしまう。これが、母平均を推定する上で不偏分散を用いる(つまり、\(n\)ではなく\(n-1\)で割る)理由である。

次回は、 t分布 を導出するために、 正規母集団の分散とカイ二乗分布 について扱う。