我々が物事を観測するにあたっては, ある単一の確率変数に着目することもあれば, 幾つかの確率変数に着目する場合も大いに考えられる.
たとえば, 物理と化学の点数を同時に記録した情報などは, 物理の点数と化学の点数の二つ確率変数を取り扱っていることになる.
このように幾つかの同時に生じる確率変数を取り扱う場合, それらの確率変数のバラつきを一緒くたに説明できる確率分布を考える必要性が出てくる. このような確率分布のことを同時分布あるいは同時密度関数という.
ここでは, 同時分布がどのようなものか, その定義と簡単な性質について紹介する.
2変数の離散型確率分布
同時分布
離散型確率変数 \( X \) , \( Y \) について, \( X \) と \( Y \) がそれぞれある値 \( x_{i} \) , \( y_{j} \) として同時に観測される確率 \( P(X=x_{i},Y=y_{j}) \) を次のように書き表すことにする. \[P(X=x_{i},Y=y_{i}) = h(x_{i},y_{j}) \quad . \notag\] ここで新しく導入した関数 \( h(x,y) \) を離散型確率変数 \( X \) , \( Y \) の同時分布という.
\( X \) の取り得る値が \( x_{1}, x_{2}, \cdots , x_{n} \) , \( Y \) の取り得る値が \( y_{1}, y_{2}, \cdots , y_{m} \) であるとすると, 同時分布 \( h(x, y) \) は次の性質を満たしている必要がある. \[\begin{align} & 0 \le h(x_{i},y_{j}) \label{disnat1} \\ & \sum_{i=1}^{n} \sum_{j=1}^{m} h(x_{i},y_{j}) = 1 \label{disnat2} \end{align}\] 式\eqref{disnat2}は規格化条件と呼ばれる.
離散型確率変数の周辺分布
離散型確率変数 \( X \) , \( Y \) の同時分布を \( h(x, y) \) とする. このとき, 次式で定義されるような関数 \( f(x) \) , \( g(y) \) をそれぞれ \( X \) の周辺分布, \( Y \) の周辺分布という. \[\begin{align} f(x) &= \sum_{j=1}^{m}h(x,y_{j}) \label{dismarx} \\ g(y) &= \sum_{i=1}^{n}h(x_{i},y) \label{dismary} \end{align}\] また, 上記の性質からも分かるように \( f(x) \) , \( g(y) \) はそれぞれ, \( X \) の確率分布, \( Y \) の確率分布に一致している(確率変数).
例えば, 式\eqref{dismarx}の右辺は全ての \( y_{i} \) に対して具体的な値を代入して総和を計算していることを意味しており, 確率変数 \( X \) のみの(離散的な)関数となっている. したがって, 確率変数 \( X \) のみの関数 \( f(x) \) と書くことが出来る.
同時分布が式\eqref{disnat2}を満たすことを用いながら, 確率変数 \( X \) が取り得る全ての値 \( x \) に対する \( f(x) \) の総和計算を行うと, \[\begin{aligned} \sum_{i=1}^{n}f(x_{i}) &= \sum_{i=1}^{n} \left\{\sum_{j=1}^{m}h(x,y_{j})\right\} \\ &\underbrace{=}_{式\eqref{disnat2}} 1 \end{aligned}\] \[\therefore \ \sum_{i=1}^{n}f(x_{i}) = 1 \notag\] が成立し, \( 0 \le f(x) \) を満たしていることから周辺分布 \( f(x) \) はまさしく離散型確率変数 \( X \) の確率分布と一致していることがわかる.
また, 離散型確率変数 \( X \) , \( Y \) の同時分布 \( h(x,y) \) と, \( X \) と \( Y \) の確率分布 \( f(x) \) と \( g(y) \) について, \[h(x,y) = f(x)g(y) \notag \] が成立する時, \( X \) と \( Y \) は独立であるといい, 一方の確率変数がとる値が他方の確率変数がとる値に全く影響を与えないことを意味している.
2変数の離散型確率分布
離散型確率変数 \( X \) , \( Y \) について, \( X = x_{i} \) , \( Y=y_{j} \) が同時に観測される確率 \( P(X=x_{i},Y=y_{j}) \) を次のようにあらわし, \( h(x, y) \) を同時分布という. \[P(X=x_{i},Y=y_{i}) = h(x_{i},y_{j}) \quad . \notag\] 同時分布 \( h(x, y) \) は次の性質を持つ. \[\begin{aligned} & 0 \le h(x_{i},y_{j}) \\ & \sum_{i=1}^{n} \sum_{j=1}^{m} h(x_{i},y_{j}) = 1 \end{aligned}\] 同時分布 \( h(x, y) \) によって定まる \( X \) の周辺分布 \( f(x) \) , \( Y \) の周辺分布 \( g(y) \) は次式のとおりであり, 各変数の確率分布を意味する. \[\begin{aligned} f(x) &= \sum_{j=1}^{m}h(x,y_{j}) \\ g(y) &= \sum_{i=1}^{n}h(x_{i},y) \end{aligned}\] \( X \) , \( Y \) が独立である時, それぞれの確率分布 \( f(x) \) , \( g(y) \) と同時分布 \( h(x, y) \) の間に次式が成立する. \[ h(x, y) = f(x) g(y) \notag \]2変数の連続型確率分布
同時密度関数
連続型確率変数 \( X \) , \( Y \) について, \( X \) と \( Y \) がそれぞれある微小幅 \( x\sim x+\dd{x} \) , \( y\sim y+\dd{y} \) の間の値となることが同時に観測される確率 \( P(x<X<x+\dd{x}, y<Y<y+\dd{y}) \) を次のように書き表すことにする. \[P(x<X<x+\dd{x}, y<Y<y+\dd{y}) = h(x,y)\dd{x}\dd{y} \quad . \notag\]
ここで新しく導入した関数 \( h(x,y) \) を連続型確率変数 \( X \) と \( Y \) の同時密度関数という.また, \( x \) – \( y \) 平面上のある領域を \( D \) とし, その領域 \( D \) 内部で観測される確率 \( P((X,Y)\in D) \) は同時密度関数 \( h(x,y) \) を用いて次式のように書き表すことができる. \[P((X,Y)\in D) = \iint_{D} h(x,y)\dd{x}\dd{y} \notag \]
ここで, 記号 \( \iint_{D} \) は領域 \( D \) の範囲内で積分を実行することをあらわす.同時密度関数 \( h(x,y) \) は次の性質を満たしている必要がある. \[\begin{align} & 0 \le h(x,y) \label{connat1} \\ & \int_{ – \infty}^{\infty}\int_{ – \infty}^{\infty} h(x,y)\dd{x}\dd{y} =1 \label{connat2} \end{align}\] 式\eqref{connat2}は規格化条件と呼ばれる.
連続型確率変数の周辺分布
連続型確率変数 \( X \) , \( Y \) の同時密度関数を \( h(x,y) \) とする. このとき, 次式で定義されるような関数 \( f(x) \) , \( g(y) \) をそれぞれ \( X \) の周辺分布, \( Y \) の周辺分布という. \[\begin{align} f(x) &= \int_{ – \infty}^{\infty} h(x,y) \dd{y}\label{conmarx} \\ g(y) &= \int_{ – \infty}^{\infty} h(x,y) \dd{x}\label{conmary} \end{align}\] また, 上記の性質からも分かるように, \( f(x) \) , \( g(y) \) はそれぞれ, \( X \) の確率密度関数, \( Y \) の確率密度関数に一致している.(確率変数)
例えば, 式\eqref{conmarx}の右辺は \( y \) についての定積分を実行しており, その計算結果は \( y \) を含まずに確率変数 \( X \) のみの関数となっている. したがって, 確率変数 \( X \) のみの関数 \( f(x) \) と書くことができる. 同時密度関数 \( h(x,y) \) は式\eqref{connat2}が成立することを用いながら, 確率変数 \( X \) が取り得る全ての値 \( x \) に対する \( f(x) \) の積分計算を行うと, \[\begin{aligned} \int f(x) \dd{x} &= \int_{ – \infty}^{\infty} \left\{\int_{ – \infty}^{\infty} h(x,y) \right\}\dd{x}\dd{y}\\ &\underbrace{=}_{式\eqref{connat2}} 1 \end{aligned}\] \[\therefore \ \int_{ – \infty}^{\infty} f(x) \dd{x} = 1\notag \] が成立し, \( 0 \le f(x) \) を満たしていることから周辺分布 \( f(x) \) はまさしく連続型確率変数 \( X \) の確率密度関数と一致していることがわかる.
また, 連続型確率変数 \( X \) , \( Y \) の同時密度関数 \( h(x,y) \) と, \( X \) と \( Y \) の確率密度関数 \( f(x) \) と \( g(y) \) について, \[h(x,y) = f(x)g(y) \notag \] が成立する時, \( X \) と \( Y \) は独立であるといい, 一方の確率変数がとる値が他方の確率変数がとる値に全く影響を与えないことを意味している.
2変数の連続型確率分布
連続型確率変数 \( X \) , \( Y \) について, \( x < X < x+\dd{x} \) , \( y < Y < y+\dd{y} \) の領域に同時に観測される確率 \( P(x<X<x+\dd{x}, y<Y<y+\dd{y}) \) を次のようにあらわし, \( h(x, y) \) を同時密度関数という. \[P(x<X<x+\dd{x}, y<Y<y+\dd{y}) = h(x,y)\dd{x}\dd{y} \quad . \notag\] 同時密度関数 \( h(x, y) \) は次の性質を持つ. \[\begin{aligned} & 0 \le h(x,y) \\ & \int_{ – \infty}^{\infty}\int_{ – \infty}^{\infty} h(x,y)\dd{x}\dd{y} =1 \end{aligned}\] 同時密度関数 \( h(x, y) \) によって定まる \( X \) の周辺分布 \( f(x) \) , \( Y \) の周辺分布 \( g(y) \) は次式のとおりであり, 各変数の確率密度関数を意味する. \[\begin{aligned} f(x) &= \int_{ – \infty}^{\infty} h(x,y) \dd{y}\\ g(y) &= \int_{ – \infty}^{\infty} h(x,y) \dd{x}\end{aligned}\] \( X \) , \( Y \) が独立である時, それぞれの確率密度関数 \( f(x) \) , \( g(y) \) と同時密度関数 \( h(x, y) \) の間に次式が成立する. \[ h(x, y) = f(x) g(y) \notag \]多変数の場合の確率分布
さいごに, 注目する確率変数が多数存在するときの確率分布の表し方について補足しておく.
多変数の場合には2変数の場合の素直な拡張となっている.
\( k \) 個の離散型確率変数 \( X_{1}, X_{2}, \cdots , X_{k} \) を考え, それぞれの値が同時に \( x_{1}, x_{2}, \cdots , x_{k} \) となる場合の確率 \( P(X_{1}=x_{1}, X_{2}=x_{2}, \cdots, X_{k}=x_{k} ) \) を \( k \) 個の変数からなる同時分布 \( h \) を考えて, \[ h(x_{1}, x_{2}, \cdots , x_{k} ) = P(X_{1}=x_{1}, X_{2}=x_{2}, \cdots , X_{k}=x_{k}) \notag \] と表す. また \[ P(X_{1}=x_{1}, X_{2}=x_{2}, \cdots, X_{k}=x_{k} ) = P(X_{1}=x_{1}) P(X_{2}=x_{2}) \cdots P(X_{k}=x_{k}) \notag \] が成り立つ時, すなわち, 各確率変数の確率分布を \( f_{1}, f_{2} , \cdots, f_{k} \) としたときに, \[ h(x_{1}, x_{2}, \cdots , x_{k} ) = f_{1}(x_{1}) \, f_{2}(x_{2}) \cdots \,f_{k}(x_{k}) \notag \] が成り立てば, \( X_{1}, X_{2}, \cdots , X_{k} \) はそれぞれ独立であるという.
\( k \) 個の連続型確率変数 \( X_{1}, X_{2}, \cdots , X_{k} \) についても全く同様であり, \( k \) 個の変数からなる同時密度関数 \( h \) を考え, 各変数の確率密度関数を \( f_{1}, f_{2} , \cdots , f_{k} \) とする. このとき, \[ h(x_{1}, x_{2}, \cdots ) = f_{1}(x_{1}) \, f_{2}(x_{2}) \cdots \,f_{k}(x_{k}) \notag \] が成り立てば, \( X_{1}, X_{2}, \cdots , X_{k} \) はそれぞれ独立であるという.