二項分布の近似としての正規分布

期待値 \( \mu \) , 分散 \( \sigma^2 \) の正規分布の確率分布 \[f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp{\left[-\frac{\left( x – \mu \right)^2 }{2\sigma^2}\right]} \label{gauss}\] が二項分布 \( B(n, p) \) の \( n \to \infty \) の条件下で導出され, 二項分布が正規分布に近似的に従うことを示す.[1]

ある確率 \( p \) で事象 \( A \) が生じ, 確率 \( q=1-p \) で事象 \( \bar{A} \) が生じるような二項分布 \( B(n, p) \) において, 確率変数 \( X \) の値が \( X=r \) となる確率 \( P=P(X=r) \) は \[P(X=r) = \frac{n!}{\left(n-r\right)! r!} p^{r}q^{n-r} \notag\] で与えられ, \( B(n, p) \) の期待値 \( \mu \) , 分散 \( \sigma^2 \) は次式で与えられる. \[\begin{aligned} \mu &= np \\ \sigma^2 &= npq \end{aligned}\] 確率 \( P \) の両辺の対数をとると, \[\begin{aligned} \log_{}{P} &= \log_{}{\left\{ \frac{n!}{\left(n-r\right)! r!} p^{r}q^{n-r} \right\} } \\ &= \log_{}{n!} – \log_{}{\left\{\left(n-r\right)!\right\}} – \log_{}{r!} + r\log_{}{p} +\left( n-r \right)\log_{}{q} \end{aligned} \label{logP}\] ここで, 大きな数 \( n \) に対して成り立つスターリングの公式[2] \[\log_{}{n!} \approx \frac{1}{2}\log_{}{\left( 2 \pi n \right)} + n \left(\log_{}{n} -1 \right)\] を適用して整理していくと, \[\begin{aligned} &\log_{}{P} \approx \frac{1}{2}\log_{}{\left( 2 \pi n \right)} + n \left(\log_{}{n} -1 \right) \\ & \phantom{\log_{}{P} \approx} -\frac{1}{2}\log_{}{\left\{ 2 \pi\left( n-r \right) \right\}} + \left(n-r\right) \left(\log_{}{\left(n-r\right)} -1 \right) \\ & \phantom{\log_{}{P} \approx} -\frac{1}{2}\log_{r}{\left( 2 \pi r \right)} + r \left(\log_{}{r} -1 \right) \\ & \phantom{\log_{}{P} \approx} + r\log_{}{p} +\left( n-r \right)\log_{}{q} \\ & \phantom{\log_{}{P}} \approx \frac{1}{2} \log_{}{\left\{ \frac{n}{2\pi \left( n-r \right) r } \right\} } \\ & \phantom{\log_{}{P} \approx} + n \log_{}{n} – \left(n-r\right) \log_{}{\left(n-r\right)}- r \log_{}{r} \\ & \phantom{\log_{}{P} \approx} + r\log_{}{p} +\left( n-r \right)\log_{}{q} \\ & \phantom{\log_{}{P}} \approx \frac{1}{2} \log_{}{\left\{ \frac{n}{2\pi \left( n-r \right) r } \right\} } \\ & \phantom{\log_{}{P} \approx} + \underbrace{\left(n-r\right) \log_{}{n} + r \log_{}{n} }_{=n \log_{}{n}} – \left(n-r\right) \log_{}{\left(n-r\right)}- r \log_{}{r} \\ & \phantom{\log_{}{P} \approx} + r\log_{}{p} +\left( n-r \right)\log_{}{q} \end{aligned}\] \[\begin{equation} \begin{aligned} \therefore \ \log_{}{P} &\approx \frac{1}{2} \log_{}{\left\{ \frac{n}{2\pi \left( n-r \right) r } \right\} } \\ &\phantom{\approx } – \left(n-r\right)\log_{}{\left\{\frac{n-r}{nq}\right\}}- r\log_{}{\left\{\frac{r}{np}\right\}} \quad . \end{aligned} \label{logP2} \end{equation}\] これからしばらくは, 式\eqref{logP2}の第2項と第3項について考える.

確率変数 \( X \) を \( np \) だけ平行移動した変数 \( Y \) \[Y = X – np \notag\] を考える. \( X=r \) のときの \( Y \) の値を \( y \) とすると, \( y \) と \( r \) は次のような関係にある. \[\begin{align} & r = np + y \label{Yr} \\ & \begin{aligned} n- r &= n – \left( np + y \right) \\ &= nq – y \end{aligned} \label{Ynr} \end{align}\] 式\eqref{logP2}の第2項, 第3項に式\eqref{Ynr}, 式\eqref{Yr}をそれぞれ適用すると, \[\begin{aligned} – \left(n-r\right)\log_{}{\left\{\frac{n-r}{nq}\right\}} &=-\left( nq – y \right) \log_{}{\left\{\frac{nq – y}{nq}\right\}} \\ &=- nq \left(1 – \frac{y}{nq} \right) \log_{}{\left\{1-\frac{y}{nq} \right\}} \\ – r\log_{}{\left\{\frac{r}{np}\right\}} &=- \left( np + y \right) \log_{}{\left\{\frac{np + y}{np}\right\}} \\ &=- np \left( 1+ \frac{y}{np} \right) \log_{}{\left\{1+\frac{y}{np} \right\}} \end{aligned}\] と変形することができる.

見やすくるために, \[ x_{1} = \frac{y}{nq} , \quad x_{2} = \frac{y}{np} \notag \] とすると, \[\begin{align} – \left(n-r\right)\log_{}{\left\{\frac{n-r}{nq}\right\}} &=- nq \left( 1 – x_{1} \right) \log_{}{\left\{1 – x_{1} \right\}} \label{logP22} \\ – r\log_{}{\left\{\frac{r}{np}\right\}} &=- np \left( 1 + x_{2} \right) \log_{}{\left\{1 + x_{2} \right\}} \label{logP23} \end{align}\] とかくことができる. ここで, \( x_{1}, x_{2} \) は \( n\to\infty \) という極限でゼロとなることに注意しておく.

さらに, \( x \ll 1 \) のときに成立する対数関数の近似公式 \[\begin{aligned} \log_{}{\left(1+x\right)} &= x – \frac{x^2}{2} + \frac{x^3}{3} – \cdots \\ \log_{}{\left(1-x\right)} &=-x – \frac{x^2}{2} – \frac{x^3}{3} – \cdots \end{aligned}\] を式\eqref{logP22}と式\eqref{logP23}に適用して計算を進めると \[\begin{aligned} \text{式\eqref{logP22}} &=- nq \left( 1 – x_{1} \right) \log_{}{\left\{1 – x_{1} \right\}} \\ &\approx – nq \left( 1 – x_{1} \right) \left( -x_{1} – \frac{1}{2}x_{1}^2 – \frac{1}{3}x_{1}^3 – \cdots \right) \\ &= nq \left( x_{1} – x_{1}^{2} + \frac{x_{1}^{2}}{2}-\frac{x_{1}^{3}}{2} + \frac{x_{1}^{3}}{3} – \frac{x_{1}^{4}}{3} + \cdots \right) \quad . \\ \text{式\eqref{logP23}} &=- np \left( 1 + x_{2} \right) \log_{}{\left\{1 + x_{2} \right\}} \\ &\approx – np \left( 1 + x_{2} \right) \left( x_{2} – \frac{1}{2}x_{2}^2 + \frac{1}{3}x_{2}^3 – \cdots \right) \\ & =- np \left( x_{2} + x_{2}^{2} – \frac{x_{2}^{2}}{2}-\frac{x_{2}^{3}}{2} + \frac{x_{2}^{3}}{3} + \frac{x_{2}^{4}}{3} – \cdots \right) \quad . \end{aligned}\] これらの和を取ると, \[\begin{aligned} & nqx_{1} -npx_{2} -\frac{1}{2}nqx_{1}^{2} -\frac{1}{2}npx_{2}^{2} – \frac{1}{6}nqx_{1}^{3} + \frac{1}{6}npx_{2}^{3} + \cdots \\ & = y – y -\frac{1}{2}\frac{y^2}{nq} -\frac{1}{2}\frac{y^2}{np} -\frac{1}{6}\frac{y^3}{n^2q^2} +\frac{1}{6}\frac{y^3}{n^2p^2} + \cdots \\ &\phantom{=} =-\frac{y^{2}}{2npq}+ \frac{y^{3}}{6n^2p^2q^2}\left(q-p\right)+\cdots \end{aligned}\] であり, この式の第2項以降の分母には \( n \) の次数が \( 2 \) 以上のものがついて回るので, \( n\to\infty \) の極限では第1項に比べて早くゼロへ近づくことから, 式\eqref{logP2}の第2項, 第3項について \[- \left(n-r\right)\log_{}{\left\{\frac{n-r}{nq}\right\}}- r\log_{}{\left\{\frac{r}{np}\right\}} \to – \frac{y^{2}}{2npq} \label{sub1}\] という近似式を得る.

続いて, 式\eqref{logP2}の第1項について, 変数変換の式\eqref{Yr}, 式\eqref{Ynr}を用いると, \[\begin{aligned} & \frac{n}{2\pi\left(n-r\right)r} = \frac{n}{2\pi \left\{ nq – y \right\} \left\{ np + y \right\} } \\ &\phantom{=} = \frac{1}{2\pi \left( npq + \left(q-p\right)y – \frac{1}{n}y^2\right) } \\ \end{aligned}\] ここで, 分母の第2項, 第3項は \( n \to \infty \) の極限においては第1項に比べて無視できるので, \[\frac{n}{2\pi\left(n-r\right)r} \to \frac{1}{2\pi n pq } \label{sub2}\] と近似することができる.

以上, 式\eqref{sub1}, 式\eqref{sub2}を式\eqref{logP2}に代入すると, \[\begin{aligned} \log_{}{P(Y=y)} & \approx \frac{1}{2} \log_{}{\left\{ \frac{n}{2\pi \left( n-r \right) r } \right\} } – \left(n-r\right)\log_{}{\left\{\frac{n-r}{nq}\right\}}- r\log_{}{\left\{\frac{r}{np}\right\}} \\ & \approx \frac{1}{2} \log_{}{\left( \frac{1}{2\pi n p q } \right)} – \frac{y^{2}}{2npq} \end{aligned}\] が成立する.

両辺の指数をとると, \[\begin{aligned} P\left( Y = y \right) &= \frac{1}{\sqrt{2\pi npq}} \exp{\left[ -\frac{y^2}{2npq}\right]} \\ \iff P\left( X = r \right) &= \frac{1}{\sqrt{2\pi npq}} \exp{\left[ -\frac{\left( r – np \right)^2}{2npq}\right]} \quad ( y = x – np ) \end{aligned}\] が成立する.

ここで, 二項定理では \[\begin{aligned} \mu &= np \\ \sigma^2 &= npq \end{aligned}\] が成立しているので, 最終的に \[P\left( X =r\right) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp{\left[ -\frac{\left( r – \mu \right)^2}{2\sigma^2}\right]}\] が成立し, 正規分布の確率密度関数(式\eqref{gauss})に一致していることがわかる.




補足    (↵ 本文へ)
  1. 実際には \( n \to \infty \) までしなくても \( n \) が十分に大きければ成立する.

  2. 証明については「高校数学の美しい物語」さんの記事、「スターリングの公式とその証明」などを参考にしていただきたい.

スポンサーリンク


この記事をシェアする