大数の法則

各目がでる確率が同様に確からしい6面サイコロをふる試行を非常に多数回繰り返せば, (例えば)1の目が得られた相対度数 \( p^{\prime} \) が真の確率 \( p=\frac{1}{6} \) へと近づいていくであろう \[p^{\prime} \to \frac{1}{6} \notag \] と,このような一般的な感覚を正当化してくれる法則が大数(たいすう)の法則と呼ばれるものである.

一言で大数の法則と言っても, 近づくという言葉の意味合いに応じて大数の弱法則大数の強法則とが知られている.

弱法則の簡単な証明はチェビシェフの不等式の延長で求めることができるが, 強法則の証明は当サイトの取扱範囲を大きく逸脱するので, その事実を紹介するに留める.


チェビシェフの不等式の復習

期待値 \( \mu \) , 分散 \( \sigma^2 \) の確率分布に従う確率変数 \( X \) について成り立つチェビシェフの不等式とは, 任意の正の数 \( k \) に対して次式が成立することであった.(チェビシェフの不等式) \[\begin{align} & P(\abs{X – \mu } < k ) \ge 1 – \frac{\sigma^2}{k^2} \\ \iff \ & P(\abs{X – \mu } \ge k ) \le \frac{\sigma^2}{k^2} \label{chev}\end{align}\] これは, 期待値周りに注目し, 注目する領域が広ければ広いほどその範囲内に確率変数の値が得られる確率 \( P \) が大きくなり, その確率 \( P \) には注目する領域の広さに応じた最小値が存在するという主張であった.

このチェビシェフの不等式から出発して大数の弱法則へと話をつなげよう.

大数の弱法則

母集団の期待値(母平均) \( E(X) \) が \( \mu \) , 母分散 \( V(X) \) が \( \sigma^2 \) で与えられるとしよう. このような母集団から \( n \) 個の標本を無作為復元抽出したときの標本平均 \( \bar{X} \) は次式で定義されるのであった. \[\bar{X} = \frac{1}{n} \sum_{i=1}^{n}X_{i} \notag \] ただし, ここでは \( \bar{X} \) が何個の標本の平均であるかを明示的に書き表すために, \[\bar{X}_{n} = \frac{1}{n} \sum_{i=1}^{n}X_{i} \notag \] と表記することにする. 例えば, \( \bar{X}_{2} \) とは母集団から抽出された \( 2 \) 個の標本平均を, \( \bar{X}_{10} \) とは母集団から抽出された \( 10 \) 個の標本平均をあらわしている.

この標本平均 \( \bar{X}_{n} \) を確率変数とみなしたときの期待値 \( E(\bar{X}_{n}) \) および分散 \( V(\bar{X}_{n}) \) は次式で与えられるのであった.(不偏推定量) \[\begin{aligned} E(\bar{X}_{n}) &= E(X) = \mu \\ V(\bar{X}_{n}) &= \frac{1}{n}V(X) = \frac{1}{n}\sigma^2 \quad . \end{aligned}\] したがって, チェビシェフの不等式\eqref{chev}において, \[\begin{aligned} X & \to \bar{X}_{n} \\ \sigma^2 & \to V(\bar{X}_{n})=\frac{1}{n}\sigma^2 \\ k & = \epsilon \end{aligned}\] という置き換えを実行することで次式が成立する. \[\begin{aligned} & P(\abs{\bar{X}_{n} – \mu } \ge k ) \le \frac{\sigma^2}{k^2} \\ \to \ & P(\abs{\bar{X}_{n} – \mu } \ge \epsilon ) \le \frac{\sigma^2}{n\epsilon^2} \quad . \end{aligned}\] したがって, 母集団から抽出する標本の数 \( n \) が大きい極限において, \[\lim_{n \to \infty } P(\abs{\bar{X}_{n} – \mu } \ge \epsilon ) = 0 \label{lln1}\] が成立することになる. または \[P(\abs{\bar{X}_{n} – \mu } \ge \epsilon ) =1 – P(\abs{\bar{X}_{n} – \mu } < \epsilon ) \notag\] をもちいて, \[\begin{align} & \lim_{n \to \infty } P(\abs{\bar{X}_{n} – \mu } \ge \epsilon ) = 0 \notag \\ \to \ & \lim_{n \to \infty } \left\{1 – P(\abs{\bar{X}_{n} – \mu } < \epsilon ) \right\} = 0 \notag \\ \to \ & \lim_{n \to \infty } P(\abs{\bar{X}_{n} – \mu } < \epsilon ) = 1 \label{lln2a} \\ \iff \ & \lim_{n \to \infty } P\qty( \abs{\frac{X_{1}+X_{2}+\cdots + X_{n}}{n} – \mu } < \epsilon ) = 1 \label{lln2b} \end{align}\] が成立することが示される.

式\eqref{lln1}または式\eqref{lln2a}(式\eqref{lln2b})のことを大数の弱法則という.

大数の弱法則により, \( n \) 回の試行で得られた \( \bar{X}_{n} \) が真の値 \( \mu \) からのズレが \( \epsilon \) 以下になる確率は \( n \) を好きなだけ大きくすることでいくらでも \( 1 \) に近づけることが出来ることがわかる. このことを, \( \bar{X}_{n} \) が \( n\to\infty \) という極限のもとで \( \mu \) に確率収束すると表現する.

確率収束という用語および使い方は統計学を専門としない方には聞き慣れない用語であろうが, 数学では収束といっても様々な種類のものがあることを知っておいてほしい. 確率・統計論を本格的に学ばないのであれば, いくつかある収束の概念の中の1つである, という程度の認識でもよいであろう.

大数の強法則

大数の弱法則というのがあるからには, 大数の強法則と名付けられた法則が存在することは予想できるであろう.

実際, 母集団の分布が期待値 \( \mu \) を持つ場合には大数の弱方法則は大数の強法則へと拡張することができる[1]多少厳密さを書いているが, ここでは踏み込まないことにする.. ただし, 大数の強法則の一般的な証明は大変専門的であり, 学生が手を付けやすいような書籍では証明が割愛されている事がほとんどである[2]たとえば, 一版の場合ではないにしても, … Continue reading.

このページでも厳密な証明というのは割愛し, 弱法則の時と同じ状況設定において得られる結論だけをのせておくことにする. \[P\qty( \lim_{n \to \infty } \bar{X}_{n}= \mu ) = 1 \label{lln3} \quad .\] この式\eqref{lln3}は \( \bar{X}_{n} \) が \( n\to\infty \) という極限のもとで \( \mu \) に概収束する, あるいは確率1で収束すると表現される.

大数の強法則は弱法則よりも強い主張であり, 強法則が成立するならば弱法則も成立することが知られている.

弱法則と強法則の違い

大数の弱法則と強法則の違いは非常にわかりづらいが, 説明を試みてみよう.

どの面も同様に確からしい確率 \( \frac{1}{6} \) であるような6面サイコロ投げを例に考えてみよう. \( 1 \) の目がでたときの確率変数を \( 1 \) , それ以外を \( 0 \) とすれば, サイコロ投げによって得られる確率変数 \( X \) の値は \( 1 \) か \( 0 \) ということになる.

このサイコロ投げを非常に多数回(無限回)投げるというゲームを1回の施行と考え, そのゲームを多数回行う事を考える. 1回目のゲームで得られる確率変数を \( X_{1;1}, X_{2;1}, \cdots , X_{n;1}, \cdots \) としよう. また2回目のゲームで得られた確率変数も \( X_{1;2}, X_{2;2}, \cdots , X_{n;2}, \cdots \) といった具合に表し, \[\begin{aligned} & X_{1;1}, X_{2;1}, \cdots , X_{n;1}, \cdots \\ & X_{1;2}, X_{2;2}, \cdots , X_{n;2}, \cdots \\ & \qquad \cdots \\ & X_{1;m}, X_{2;m}, \cdots , X_{n;m}, \cdots \\ & \qquad \cdots \end{aligned}\] と非常に多くの値を蓄えていく.

ここで各ゲームにおける, (無限と言えるほど非常に大きい) \( n \) 回目までに表が得られる相対度数を \[\begin{aligned} \bar{X}_{n;1} &= \frac{1}{n}\left\{X_{1;1} + X_{2;1} + \cdots + X_{n;1} \right\} \\ \bar{X}_{n;2} &= \frac{1}{n}\left\{X_{1;2} + X_{2;2} + \cdots + X_{n;2} \right\} \\ & \qquad \cdots \\ \bar{X}_{n;m} &= \frac{1}{n}\left\{X_{1;m} + X_{2;m} + \cdots + X_{n;m} \right\} \\ & \qquad \cdots \end{aligned}\] で計算しよう. このようにして集められた非常に多くの \( \bar{X}_{n;1}, \bar{X}_{n;2}, \cdots , \bar{X}_{n;m}, \cdots \) の中には \( \frac{1}{6} \) から大きく外れるものも含まれているであろうが, そのような値が得られる確率は非常に小さい(限りなくゼロ), というのが大数の弱法則の主張するところである.

一方で, 各ゲーム毎に計算される量 \( \bar{X}_{n;i} \) が \[\lim_{n \to \infty} \bar{X}_{n;i} = \frac{1}{6}\] がほぼ必ず(=確率 \( 1 \) で)成立するというのが大数の強法則の主張するところである.

大数の法則の例外

大数の法則は仮定が少ないので, 大変多くの現実的な標本については成立することになる. しかし, 大数の法則は期待値が存在していることが必要条件としてあげられる. 期待値が定義されない確率分布の代表例といえば, コーシー分布であり, コーシー分布では大数の法則は成立しない.

コーシー分布は時たま, 中央値から桁外れに大きな値をとり得ることもある分布なので, \( n \) を増やしていく過程において \( \bar{X} \) がその桁外れな値によって大きく変化することが生じ得る. このような理由から \( \bar{X}_{n} \) は収束の兆しがなく, 大数の法則に従わないことが感覚的にも分かるであろう.

このような意味で, 確率分布が期待値を持つということは統計学で非常に重要な役割を果たしている.


参考書籍

脚注

脚注
1 多少厳密さを書いているが, ここでは踏み込まないことにする.
2 たとえば, 一版の場合ではないにしても, 母集団分布が4次モーメントという量をもちその値が有限の場合の証明などは各自ページ下部の参考書籍(「確率論」高橋幸雄)などをあたってほしい.