二項分布の近似としての正規分布

期待値 \( \mu \) , 分散 \( \sigma^2 \) の正規分布の確率分布 \[f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp{\qty[ – \frac{\qty( x – \mu )^2 }{2\sigma^2} ]} \label{gauss}\] が二項分布 \( B(n, p) \) の \( n \to \infty \) の条件下で導出され, 二項分布が正規分布に近似的に従うことを示す.[1]実際には \( n \to \infty \) までしなくても \( n \) が十分に大きければ成立する.

ある確率 \( p \) で事象 \( A \) が生じ, 確率 \( q=1-p \) で事象 \( \bar{A} \) が生じるような二項分布 \( B(n, p) \) において, 確率変数 \( X \) の値が \( X=r \) となる確率 \( P=P(X=r) \) は \[P(X=r) = \frac{n!}{\qty( n-r )! r!} p^{r}q^{n-r} \notag\] で与えられ, \( B(n, p) \) の期待値 \( \mu \) , 分散 \( \sigma^2 \) は次式で与えられる. \[\begin{aligned} \mu &= np \\ \sigma^2 &= npq \end{aligned}\] 確率 \( P \) の両辺の対数をとると, \[\begin{aligned} \log_{}{P} &= \log_{}{\left\{\frac{n!}{\qty( n-r )! r!} p^{r}q^{n-r} \right\} } \\ &= \log_{}{n!} – \log_{}{\left\{\qty( n-r )!\right\}} – \log_{}{r!} + r\log_{}{p} +\qty( n-r )\log_{}{q} \end{aligned} \label{logP}\] ここで, 大きな数 \( n \) に対して成り立つスターリングの公式[2]証明については「高校数学の美しい物語」さんの記事、「スターリングの公式とその証明」などを参考にしていただきたい. \[\log_{}{n!} \approx \frac{1}{2}\log_{}{\qty( 2 \pi n )} + n \qty( \log_{}{n} -1 )\] を適用して整理していくと, \[\begin{aligned} &\log_{}{P} \approx \frac{1}{2}\log_{}{\qty( 2 \pi n )} + n \qty( \log_{}{n} -1 ) \\ & \phantom{\log_{}{P} \approx} – \frac{1}{2}\log_{}{\left\{2 \pi\qty( n-r ) \right\}} + \qty( n-r ) \qty( \log_{}{\qty( n-r )} -1 ) \\ & \phantom{\log_{}{P} \approx} – \frac{1}{2}\log_{r}{\qty( 2 \pi r )} + r \qty( \log_{}{r} -1 ) \\ & \phantom{\log_{}{P} \approx} + r\log_{}{p} +\qty( n-r )\log_{}{q} \\ & \phantom{\log_{}{P}} \approx \frac{1}{2} \log_{}{\left\{\frac{n}{2\pi \qty( n-r ) r } \right\} } \\ & \phantom{\log_{}{P} \approx} + n \log_{}{n} – \qty( n-r ) \log_{}{\qty( n-r )} – r \log_{}{r} \\ & \phantom{\log_{}{P} \approx} + r\log_{}{p} +\qty( n-r )\log_{}{q} \\ & \phantom{\log_{}{P}} \approx \frac{1}{2} \log_{}{\left\{\frac{n}{2\pi \qty( n-r ) r } \right\} } \\ & \phantom{\log_{}{P} \approx} + \underbrace{\qty( n-r ) \log_{}{n} + r \log_{}{n} }_{=n \log_{}{n}} – \qty( n-r ) \log_{}{\qty( n-r )} – r \log_{}{r} \\ & \phantom{\log_{}{P} \approx} + r\log_{}{p} +\qty( n-r )\log_{}{q} \end{aligned}\] \[\begin{equation} \begin{aligned} \therefore \ \log_{}{P} &\approx \frac{1}{2} \log_{}{\left\{\frac{n}{2\pi \qty( n-r ) r } \right\} } \\ &\phantom{\approx } – \qty( n-r )\log_{}{\left\{\frac{n-r}{nq}\right\}} – r\log_{}{\left\{\frac{r}{np}\right\}} \quad . \end{aligned} \label{logP2} \end{equation}\] これからしばらくは, 式\eqref{logP2}の第2項と第3項について考える.

確率変数 \( X \) を \( np \) だけ平行移動した変数 \( Y \) \[Y = X – np \notag\] を考える. \( X=r \) のときの \( Y \) の値を \( y \) とすると, \( y \) と \( r \) は次のような関係にある. \[\begin{align} & r = np + y \label{Yr} \\ & \begin{aligned} n- r &= n – \qty( np + y ) \\ &= nq – y \end{aligned} \label{Ynr} \end{align}\] 式\eqref{logP2}の第2項, 第3項に式\eqref{Ynr}, 式\eqref{Yr}をそれぞれ適用すると, \[\begin{aligned} – \qty( n-r )\log_{}{\left\{\frac{n-r}{nq}\right\}} &= – \qty( nq – y ) \log_{}{\left\{\frac{nq – y}{nq}\right\}} \\ &= – nq \qty( 1 – \frac{y}{nq} ) \log_{}{\left\{1 – \frac{y}{nq} \right\}} \\ – r\log_{}{\left\{\frac{r}{np}\right\}} &= – \qty( np + y ) \log_{}{\left\{\frac{np + y}{np}\right\}} \\ &= – np \qty( 1+ \frac{y}{np} ) \log_{}{\left\{1+\frac{y}{np} \right\}} \end{aligned}\] と変形することができる.

見やすくるために, \[ x_{1} = \frac{y}{nq} , \quad x_{2} = \frac{y}{np} \notag \] とすると, \[\begin{align} – \qty( n-r )\log_{}{\left\{\frac{n-r}{nq}\right\}} &= – nq \qty( 1 – x_{1} ) \log_{}{\left\{1 – x_{1} \right\}} \label{logP22} \\ – r\log_{}{\left\{\frac{r}{np}\right\}} &= – np \qty( 1 + x_{2} ) \log_{}{\left\{1 + x_{2} \right\}} \label{logP23} \end{align}\] とかくことができる. ここで, \( x_{1}, x_{2} \) は \( n\to\infty \) という極限でゼロとなることに注意しておく.

さらに, \( x \ll 1 \) のときに成立する対数関数の近似公式 \[\begin{aligned} \log_{}{\qty( 1+x )} &= x – \frac{x^2}{2} + \frac{x^3}{3} – \cdots \\ \log_{}{\qty( 1-x )} &= – x – \frac{x^2}{2} – \frac{x^3}{3} – \cdots \end{aligned}\] を式\eqref{logP22}と式\eqref{logP23}に適用して計算を進めると \[\begin{aligned} \text{式\eqref{logP22}} &= – nq \qty( 1 – x_{1} ) \log_{}{\left\{1 – x_{1} \right\}} \\ &\approx – nq \qty( 1 – x_{1} ) \qty( -x_{1} – \frac{1}{2}x_{1}^2 – \frac{1}{3}x_{1}^3 – \cdots ) \\ &= nq \qty( x_{1} – x_{1}^{2} + \frac{x_{1}^{2}}{2} – \frac{x_{1}^{3}}{2} + \frac{x_{1}^{3}}{3} – \frac{x_{1}^{4}}{3} + \cdots ) \quad . \\ \text{式\eqref{logP23}} &= – np \qty( 1 + x_{2} ) \log_{}{\left\{1 + x_{2} \right\}} \\ &\approx – np \qty( 1 + x_{2} ) \qty( x_{2} – \frac{1}{2}x_{2}^2 + \frac{1}{3}x_{2}^3 – \cdots ) \\ & = – np \qty( x_{2} + x_{2}^{2} – \frac{x_{2}^{2}}{2} – \frac{x_{2}^{3}}{2} + \frac{x_{2}^{3}}{3} + \frac{x_{2}^{4}}{3} – \cdots ) \quad . \end{aligned}\] これらの和を取ると, \[\begin{aligned} & nqx_{1} -npx_{2} – \frac{1}{2}nqx_{1}^{2} – \frac{1}{2}npx_{2}^{2} – \frac{1}{6}nqx_{1}^{3} + \frac{1}{6}npx_{2}^{3} + \cdots \\ & = y – y – \frac{1}{2}\frac{y^2}{nq} – \frac{1}{2}\frac{y^2}{np} – \frac{1}{6}\frac{y^3}{n^2q^2} +\frac{1}{6}\frac{y^3}{n^2p^2} + \cdots \\ &\phantom{=} = – \frac{y^{2}}{2npq}+ \frac{y^{3}}{6n^2p^2q^2}\qty( q-p )+\cdots \end{aligned}\] であり, この式の第2項以降の分母には \( n \) の次数が \( 2 \) 以上のものがついて回るので, \( n\to\infty \) の極限では第1項に比べて早くゼロへ近づくことから, 式\eqref{logP2}の第2項, 第3項について \[ – \qty( n-r )\log_{}{\left\{\frac{n-r}{nq}\right\}} – r\log_{}{\left\{\frac{r}{np}\right\}} \to – \frac{y^{2}}{2npq} \label{sub1}\] という近似式を得る.

続いて, 式\eqref{logP2}の第1項について, 変数変換の式\eqref{Yr}, 式\eqref{Ynr}を用いると, \[\begin{aligned} & \frac{n}{2\pi\qty( n-r )r} = \frac{n}{2\pi \left\{nq – y \right\} \left\{np + y \right\} } \\ &\phantom{=} = \frac{1}{2\pi \qty( npq + \qty( q-p )y – \frac{1}{n}y^2 ) } \\ \end{aligned}\] ここで, 分母の第2項, 第3項は \( n \to \infty \) の極限においては第1項に比べて無視できるので, \[\frac{n}{2\pi\qty( n-r )r} \to \frac{1}{2\pi n pq } \label{sub2}\] と近似することができる.

以上, 式\eqref{sub1}, 式\eqref{sub2}を式\eqref{logP2}に代入すると, \[\begin{aligned} \log_{}{P(Y=y)} & \approx \frac{1}{2} \log_{}{\left\{\frac{n}{2\pi \qty( n-r ) r } \right\} } – \qty( n-r )\log_{}{\left\{\frac{n-r}{nq}\right\}} – r\log_{}{\left\{\frac{r}{np}\right\}} \\ & \approx \frac{1}{2} \log_{}{\qty( \frac{1}{2\pi n p q } )} – \frac{y^{2}}{2npq} \end{aligned}\] が成立する.

両辺の指数をとると, \[\begin{aligned} P\qty( Y = y ) &= \frac{1}{\sqrt{2\pi npq}} \exp{\qty[ – \frac{y^2}{2npq} ]} \\ \iff P\qty( X = r ) &= \frac{1}{\sqrt{2\pi npq}} \exp{\qty[ – \frac{\qty( r – np )^2}{2npq} ]} \quad ( y = x – np ) \end{aligned}\] が成立する.

ここで, 二項定理では \[\begin{aligned} \mu &= np \\ \sigma^2 &= npq \end{aligned}\] が成立しているので, 最終的に \[P\qty( X =r ) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp{\qty[ – \frac{\qty( r – \mu )^2}{2\sigma^2} ]}\] が成立し, 正規分布の確率密度関数(式\eqref{gauss})に一致していることがわかる.

脚注

脚注
1 実際には \( n \to \infty \) までしなくても \( n \) が十分に大きければ成立する.
2 証明については「高校数学の美しい物語」さんの記事、「スターリングの公式とその証明」などを参考にしていただきたい.