正規母集団の分散とカイ二乗分布

不偏分散はカイ二乗分布に従う

\[ X_1,\dots,X_n\overset{iid}\sim{}N(\mu, \sigma^2) \]

のとき、 不偏分散 \(V^2\)に関して、以下の定理が成り立つ。

\[ \frac{(n-1)V^2}{\sigma^2}\sim{}\chi^2_{n-1} \]

証明の道筋

まず、\(X\)を正規化した\(Z_i = \dfrac{X_i-\mu}{\sigma},\ i=1,\dots,n\)を導入し、\(\dfrac{(n-1)V^2}{\sigma^2} = \sum_{i=1}^{n}(Z_i - \overline{Z})^2\)を示す。

次に、\(\sum_{i=1}^{n}(Z_i - \overline{Z})^2\)\(n-1\)個の正規分布の二乗和になっていることを導く。

そのために、ヘルマート行列と呼ばれる特殊な正方行列\(\boldsymbol{H}\)を用いて\(\boldsymbol{Z}\rightarrow{}\boldsymbol{Y}\)へと変数変換を行い、\(\boldsymbol{Y}\)が標準化正規分布に従うこと、\(\sum_{i=1}^{n}(Z_i - \overline{Z})^2\)\(n-1\)個の正規分布の二乗和になっていることの2点を示す。

標準化正規分布への対応

\[ \dfrac{(n-1)V^2}{\sigma^2} = \sum_{i=1}^{n}(Z_i - \overline{Z})^2 \]

を示していく。まず、不偏分散の定義から左辺は

\[\begin{eqnarray} \dfrac{(n-1)V^2}{\sigma^2} &=& \frac{1}{\sigma^2}\sum_{i=1}^{n}(X_i - \overline{X})^2\\ &=& \sum_{i=1}^{n}(\frac{X_i - \mu}{\sigma} - \frac{\overline{X} - \mu}{\sigma})^2\\ &=& \sum_{i=1}^{n}(Z_i - \overline{Z})^2 \end{eqnarray}\]

より、正しいことが分かる。これから先の証明では、\(\dfrac{(n-1)V^2}{\sigma^2}\)の代わりに\(\sum_{i=1}^{n}(Z_i - \overline{Z})^2\)に関してカイ二乗分布に従うことを示していく。

ヘルマート行列の導入

次に示す正方行列をヘルマート行列という。

\[ \boldsymbol{H} = \begin{bmatrix} \frac{1}{\sqrt{n}} & \frac{1}{\sqrt{n}} & \frac{1}{\sqrt{n}} & \frac{1}{\sqrt{n}} & \frac{1}{\sqrt{n}} &\dots & \frac{1}{\sqrt{n}}\\ \frac{-1}{\sqrt{1\cdot2}} & \frac{1}{\sqrt{1\cdot2}} & 0 & 0 & 0 & \dots & 0\\ \frac{-1}{\sqrt{2\cdot3}} & \frac{-1}{\sqrt{2\cdot3}} & \frac{2}{\sqrt{2\cdot3}} & 0 & 0 & \dots & 0\\ \frac{-1}{\sqrt{3\cdot4}} & \frac{-1}{\sqrt{3\cdot4}} & \frac{-1}{\sqrt{3\cdot4}} & \frac{3}{\sqrt{3\cdot4}} & 0 & \dots & 0\\ \frac{-1}{\sqrt{4\cdot5}} & \frac{-1}{\sqrt{4\cdot5}} & \frac{-1}{\sqrt{4\cdot5}} & \frac{-1}{\sqrt{4\cdot5}} & \frac{4}{\sqrt{4\cdot5}} & \dots & 0\\ \vdots & \vdots & \vdots & \vdots & \vdots & \ddots & \vdots\\ \frac{-1}{\sqrt{(n-1)n}} & \frac{-1}{\sqrt{(n-1)n}} & \frac{-1}{\sqrt{(n-1)n}} & \frac{-1}{\sqrt{(n-1)n}} & \frac{-1}{\sqrt{(n-1)n}} & \dots & \frac{n-1}{\sqrt{(n-1)n}} \end{bmatrix} \]

ヘルマート行列は\(\boldsymbol{H}^\top{}\boldsymbol{H} = \boldsymbol{H}\boldsymbol{H}^\top = \boldsymbol{I}\)なる性質を満たす(\(\boldsymbol{I}\)は単位行列)。\(\boldsymbol{H}^\top{}\boldsymbol{H} = \boldsymbol{I}\)の両辺に行列式を取ると左辺は\(|\boldsymbol{H}^\top{}\boldsymbol{H}| = |\boldsymbol{H}^\top||\boldsymbol{H}| = |\boldsymbol{H}|^2\)、右辺は\(|\boldsymbol{I}|=1\)より\(|\boldsymbol{H}|=1\)であることが分かる。

Zの同時確率密度関数に対して変数変換を施す

\(\boldsymbol{Z}=(Z_1,\dots{},Z_n)^\top\)の同時確率密度関数は

\[\begin{eqnarray} f_{\boldsymbol{Z}}(z) &=& \prod_{i = 1}^{n}\frac{1}{\sqrt{2\pi}}e^{-\frac{z_i^2}{2}}\\ &=& \frac{1}{(2\pi)^\frac{n}{2}}e^{\frac{\sum_{i=1}^{n}z_i^2}{2}} \end{eqnarray}\]

ここで、\(\sum_{i=1}^{n}z_i^2\)を行列を使って\(\sum_{i=1}^{n}z_i^2=\boldsymbol{z}^\top{}\boldsymbol{z}\)と表示する。すると、

\[ f_{\boldsymbol{Z}}(z) =\frac{1}{(2\pi)^\frac{n}{2}}e^{\frac{\boldsymbol{z}^\top{}\boldsymbol{z}}{2}} \]

次に、ヘルマート行列\(\boldsymbol{H}\)を用いて\(\boldsymbol{HZ}=\boldsymbol{Y}\)なる変換を施す。このとき、変換のヤコビアン\(J(\boldsymbol{z}\rightarrow\boldsymbol{y})\)

\[ J(\boldsymbol{z}\rightarrow\boldsymbol{y}) = |\boldsymbol{H}| = 1 \]

従って、\(f_{\boldsymbol{Y}}(\boldsymbol{y})\)

\[\begin{eqnarray} f_{\boldsymbol{Y}}(\boldsymbol{y}) &=& \frac{1}{(2\pi)^\frac{n}{2}}e^{\frac{\boldsymbol{H^{-1}y}^\top{}\boldsymbol{H^{-1}y}}{2}}\\ &=& \frac{1}{(2\pi)^\frac{n}{2}}e^{\frac{\boldsymbol{y}^\top{}(\boldsymbol{H^\top{}H})^{-1}\boldsymbol{y}}{2}}\\ &=& \frac{1}{(2\pi)^\frac{n}{2}}e^{\frac{\boldsymbol{y}^\top{}(\boldsymbol{I})^{-1}\boldsymbol{y}}{2}}\\ &=& \frac{1}{(2\pi)^\frac{n}{2}}e^{\frac{\boldsymbol{y}^\top{}\boldsymbol{y}}{2}}\\ &=& \frac{1}{(2\pi)^\frac{n}{2}}e^{\frac{\sum_{i=1}^{n}y_i^2}{2}}\\ \end{eqnarray}\]

従って、変換後に得られた変数\(Y_1,\dots,Y_n\)\(Z_i\)と同じように、独立同一に正規分布\(N(0,1)\)に従うことが分かる(\(\boldsymbol{Y}\)の確率密度関数が標準化正規分布のそれと同一であることに注意)。また、証明途中で示したように、\(\boldsymbol{z^\top{}z} = \boldsymbol{y^\top{}y}\)である。

Zの偏差2乗和がカイ二乗分布に従うことの証明

ここまで来て、ようやく\(\sum_{i=1}^{n}(Z_i - \overline{Z})^2\)に関して式変形を行う準備ができた。早速変形していく。

\[\begin{eqnarray} \sum_{i=1}^{n}(Z_i - \overline{Z})^2 &=& \sum_{i=1}^{n}Z_i^2 - n\overline{Z}^2\\ &=& \boldsymbol{z^\top{}z} - n\overline{Z}^2\\ &=& \boldsymbol{y^\top{}y} - n\overline{Z}^2 \end{eqnarray}\]

なお、最後の式変形には前節で示した\(\boldsymbol{z^\top{}z} = \boldsymbol{y^\top{}y}\)を用いた。 ここで、補題

\[ \sqrt{n}\overline{Z} = Y_1 \]

を示す。

証明は簡単で、ヘルマート変換\(\boldsymbol{HZ} = \boldsymbol{Y}\)において、\(Y_1\)を計算すると、そのまま題意を得る。この両辺を2乗して、変形後の式に代入すると、

\[\begin{eqnarray} \boldsymbol{y^\top{}y} - n\overline{Z}^2 &=& \boldsymbol{y^\top{}y} - Y_1^2\\ &=& Y_1^2 + Y_2^2 + \dots + Y_n^2 - Y_1^2\\ &=& Y_2^2 + \dots + Y_n^2 \end{eqnarray}\]

前述したとおり、\(Y_1,\dots,Y_n\overset{iid}\sim{}N(0,1)\)となるため、与式は自由度\(n-1\)のカイ二乗分布に従う。

\[ \sum_{i=1}^{n}(Z_i - \overline{Z})^2 = \frac{(n-1)V^2}{\sigma^2}\sim{}\chi^2_{n-1} \]

となり、題意は示された(証明終わり)。

この定理は、 t分布 の導出に用いる。