変数変換とヤコビアン

多変数の変数変換

変数変換では、\(Y=g(X)\)で表される一変数の変数変換を扱った。ここに、\(X\)\(Y\)\(g\)\(X\in\mathbb{R}\)\(Y\in\mathbb{R}\)\(g:X\rightarrow{}Y\)で定義される変数および関数である。

今回は、変数変換を多変数に拡張し、\(X\in\mathbb{R}^n\)\(Y\in\mathbb{R}^n\)\(g:\mathbb{R}^n\rightarrow\mathbb{R}^n\)と書き換えた場合の変数変換について考える。

なお、

\[ g(X) = \begin{pmatrix} g_1(X_1, \dots, X_n) \\ \vdots \\ g_n(X_1, \dots, X_n) \end{pmatrix} \]

であることに留意されたい。

変数変換の目標

変数変換における最終的なゴールはある確率変数\(X\)とこれが従う確率分布の確率密度関数\(f_X(x)\)から、\(Y=g(X)\)により新しく生成される確率変数\(Y\)が従う確率分布の確率密度関数\(f_Y(y)\)を求めることである。

Yの確率密度関数の計算

まずは一変数のときと同様に、累積確率関数\(P_Y\)を微分して確率密度関数\(f_Y\)を導くというアプローチを試みる。

\[ \begin{equation} P_Y(y)=P(X\in\{x|g(x)\leq{}y\}) \end{equation} \]

ここに、中かっこの中身は\(g(x)\)が取れる範囲が\(y\)以下であるということを表している。

この範囲を\(A\)と置く。これは、詳細に記せば以下のように表される。

\[ -\infty\leq{}x_1\leq{}g^{-1}_1(y_1,\dots{},y_n) \\ \vdots \\ -\infty\leq{}x_n\leq{}g^{-1}_n(y_1,\dots{},y_n) \]

累積確率関数は確率密度関数の積分で表現できることを考えると

\[ P_Y(y)=\int_Af_X(x)dx \]

となる。しかし、求めたい確率密度関数は\(y\)の式であり、右辺が\(x\)の式で積分する形になっているのは好ましくない。

そこで、この式に\(x\rightarrow{}y\)なる置換積分を施して\(y\)の式に変える。ただし、ここでの置換積分は高校数学と異なり、多変数の置換になるため、スケール変換が複雑になり、ヤコビアンという値を計算する必要がある。最終的な式は\(A\)に対応する\(y\)の範囲を\(B\)とすると

\[ P_Y(y)=\int_Bf_X(g^{-1}(y))\left|\det{}J\left(\frac{\partial{}x}{\partial{}y}\right)\right|dy \]

となる。ただし、ヤコビアン\(J\left(\dfrac{\partial{}x}{\partial{}y}\right)\)

\[ J\left(\dfrac{\partial{}x}{\partial{}y}\right)= \begin{pmatrix} \dfrac{\partial x_1}{\partial y_1} & \dots & \dfrac{\partial x_1}{\partial y_n} \\ \vdots & \ddots & \vdots \\ \dfrac{\partial x_n}{\partial y_1} & \dots & \dfrac{\partial x_n}{\partial y_n} \end{pmatrix} \]

である。

最後にこれを\(y\)で微分して確率密度関数を得る。

\[ f_Y(y)=f_X(g^{-1}(y))\left|\det{}J\left(\frac{\partial{}x}{\partial{}y}\right)\right| \]

ヤコビアンとは何か、これが出現する理由

まず初めに、記事を書くにあたって参考にしたサイトを紹介する。元の記事を読んだ方が分かりやすいかもしれない。

1変数の置換積分\(x\rightarrow{}t\)の時は

\[ \int{}f(x)dx = \int{}f(g(t))g'(t)dt \]

となる。\(dx\)\(dt\)に変えるときに\(g'(t)\)という係数をつけて、\(dx\)\(dt\)の大きさが等しくなるようにスケールを調整する必要があった。

今回は、簡単のため2変数の変換

\[ X= \begin{pmatrix} X_1 \\ X_2 \end{pmatrix} \rightarrow Y= \begin{pmatrix} Y_1 \\ Y_2 \end{pmatrix} \]

を実現する\(g:\mathbb{R}^2\rightarrow\mathbb{R}^2\)を考え、スケール変換のために行列式が必要な理由を解説する。

置換積分のモチベーションは、変数を入れ替えることで計算を簡単に行い、積分値を求めることであった。

上の2つのグラフは、左右がそれぞれ変換前の文字\(x\)を用いた複雑な計算、変換後の文字\(y\)を用いた簡単な計算を表している。今回は変数が2つであるため、高校数学の置換積分で単なるスケール変換の係数として\(g'(t)\)を掛けたのと異なり、面積比を乗じてスケール変換を行う。

積分演算子\(dx\)\(dy\)の比率に興味があるということだ。

もともと\(S_1\)の面積で計算すべきところを、無理やり文字を変えることで(\(dx\)\(dy\)に押し縮めたり、引き延ばしたりして)計算を楽にしているのだから、最後には計算結果に\(\dfrac{S_1}{S_2}\)を掛けて面積比を調整してやる必要がある。

実は、\(\dfrac{S_1}{S_2}\)がまさにヤコビアンの正体である。

以下では、この値の計算を通じてなぜヤコビアンが行列式の形をしているのか、解説していく。

面積比の計算

\[ x_1=g_1^{-1}(y_1, y_2)\\ x_2=g_2^{-1}(y_1, y_2) \]

で変換されることを考えると、平行四辺形ABCDの座標は

  • \(A(g_1^{-1}(y_1, y_2), g_2^{-1}(y_1, y_2))\)
  • \(B(g_1^{-1}(y_1+dy_1, y_2), g_2^{-1}(y_1+dy_1, y_2))\)
  • \(C(g_1^{-1}(y_1+dy_1, y_2+dy_2), g_2^{-1}(y_1+dy_1, y_2+dy_2))\)
  • \(D(g_1^{-1}(y_1, y_2+dy_2), g_2^{-1}(y_1, y_2+dy_2))\)

で示される。

従って

\[ \overrightarrow{AB}=(g_1^{-1}(y_1+dy_1, y_2)-g_1^{-1}(y_1, y_2), g_2^{-1}(y_1+dy_1, y_2)-g_2^{-1}(y_1, y_2))\\ \overrightarrow{AD}=(g_1^{-1}(y_1, y_2+dy_2)-g_1^{-1}(y_1, y_2), g_2^{-1}(y_1, y_2+dy_2)-g_2^{-1}(y_1, y_2)) \]

\(\overrightarrow{AB}=(p,q)\)\(\overrightarrow{AD}=(r,s)\)である平行四辺形ABCDの面積は

\[ \det \begin{pmatrix} p & r \\ q & s \end{pmatrix} \]

で表されるという定理から、

\[ S_1= \det \begin{pmatrix} \dfrac{\partial g_1^{-1}}{\partial y_1}dy_1 & \dfrac{\partial g_1^{-1}}{\partial y_2}dy_2 \\ \dfrac{\partial g_2^{-1}}{\partial y_1}dy_1 & \dfrac{\partial g_2^{-1}}{\partial y_2}dy_2 \end{pmatrix}\\ \]

変数変換の式

\[ x_1=g_1^{-1}(y_1, y_2)\\ x_2=g_2^{-1}(y_1, y_2) \]

の一番目の式を両辺\(y_1\)で偏微分することで\(\dfrac{\partial x_1}{\partial y_1}=\dfrac{\partial g_1^{-1}}{\partial y_1}\)を簡単に確認できる。そのほかの偏微分作用素についても同様にして

\[ S_1= \det \begin{pmatrix} \dfrac{\partial x_1}{\partial y_1} & \dfrac{\partial x_1}{\partial y_2} \\ \dfrac{\partial x_2}{\partial y_1} & \dfrac{\partial x_2}{\partial y_2} \end{pmatrix} dy_1dy_2\\ \]

\(S_2=dy_1dy_2\)より面積比\(\dfrac{S_1}{S_2}\)

\[ \dfrac{S_1}{S_2}= \det \begin{pmatrix} \dfrac{\partial x_1}{\partial y_1} & \dfrac{\partial x_1}{\partial y_2} \\ \dfrac{\partial x_2}{\partial y_1} & \dfrac{\partial x_2}{\partial y_2} \end{pmatrix} \]

これをヤコビアンといい、\(J\left(\dfrac{\partial x}{\partial y}\right)\)と表記する。

まとめ

多変数の変数変換を行う際はスケール調整のためにヤコビアンが出現する。変数変換を用いて次のような事実を確認することができる。

  • 正規分布の基準化定数が\(\dfrac{1}{\sqrt{2\pi}}\)であることの証明
  • 確率変数の畳み込みの公式
  • ガンマ分布とベータ分布の関連と、\(B(a,b)=\dfrac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}\)