二項分布の近似としての正規分布

期待値 \( \mu \) ，分散 \( \sigma^2 \) の正規分布の確率分布 \[ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp{ \bqty{ - \frac{ \pqty{ x - \mu }^2 }{2\sigma^2} }} \label{gauss}\] が，二項分布 \( B(n, p) \) の \( n \to \infty \) の条件下で導出され，二項分布が正規分布に近似的に従うことを示す．^[1]

ある確率 \( p \) で事象 \( A \) が生じ，確率 \( q=1-p \) で事象 \( \bar{A} \) が生じるような二項分布 \( B(n, p) \) において，確率変数 \( X \) の値が \( X=r \) となる確率 \( P=P(X=r) \) は \[ P(X=r) = \frac{n!}{ \pqty{ n-r }! r!} p^{r}q^{n-r} \notag\] で与えられ， \( B(n, p) \) の期待値 \( \mu \) ，分散 \( \sigma^2 \) は次式で与えられる． \[\begin{aligned} \mu &= np \\ \sigma^{2} &= npq \end{aligned} \quad .\] 確率 \( P \) の両辺の対数をとると， \[\begin{align} \log_{}{P} &= \log_{}{\Bqty{\frac{n!}{ \pqty{ n-r }! r!} p^{r}q^{n-r} } } \notag \\ &= \log_{}{n!} - \log_{}{\Bqty{ \pqty{ n-r }!}} - \log_{}{r!} + r\log_{}{p} +\pqty{ n-r }\log_{}{q} \quad . \end{align} \label{logP}\] ここで，大きな数 \( n \) に対して成り立つスターリングの公式^[2] \[\log_{}{n!} \approx \frac{1}{2}\log_{}{\pqty{ 2 \pi n }} + n \pqty{ \log_{}{n} -1 }\] を適用して整理していく． \[\begin{aligned} \log_{}{P} &\approx \frac{1}{2}\log_{}{\pqty{ 2 \pi n }} + n \pqty{ \log_{}{n} -1 } \\ & \phantom{\approx} - \frac{1}{2}\log_{}{\Bqty{2 \pi\pqty{ n-r } }} + \pqty{ n-r } \pqty{ \log_{}{\pqty{ n-r }} -1 } \\ & \phantom{\approx} - \frac{1}{2}\log_{r}{\pqty{ 2 \pi r }} + r \pqty{ \log_{}{r} -1 } \\ & \phantom{\approx} + r\log_{}{p} +\pqty{ n-r }\log_{}{q} \\ & \approx \frac{1}{2} \log_{}{\Bqty{\frac{n}{2\pi \pqty{ n-r } r }}} \\ & \phantom{\approx} + n \log_{}{n} - \pqty{ n-r } \log_{}{\pqty{ n-r }} - r \log_{}{r} \\ & \phantom{\approx} + r\log_{}{p} +\pqty{ n-r }\log_{}{q} \\ & \approx \frac{1}{2} \log_{}{\Bqty{\frac{n}{2\pi \pqty{ n-r } r }}} \\ & \phantom{\approx} + \underbrace{ \pqty{ n-r } \log_{}{n} + r \log_{}{n} }_{ = n \log_{}{n} } - \pqty{ n-r } \log_{}{\pqty{ n-r }} - r \log_{}{r} \\ & \phantom{\approx} + r\log_{}{p} +\pqty{ n-r }\log_{}{q} \end{aligned} \] \[ \begin{aligned} \therefore \ \log_{}{P} &\approx \frac{1}{2} \log_{}{\Bqty{\frac{n}{2\pi \pqty{ n-r } r } } } \\ & \phantom{\approx } - \pqty{ n-r }\log_{}{\Bqty{\frac{n-r}{nq}}} - r\log_{}{\Bqty{\frac{r}{np}}} \quad . \end{aligned} \label{logP2} \]

これからしばらくは，式\eqref{logP2}の第2項と第3項について考える．

確率変数 \( X \) を \( np \) だけ平行移動した変数 \( Y \) \[ Y = X - np \] を考える． \( X=r \) のときの \( Y \) の値を \( y \) とすると， \( y \) と \( r \) とは次のような関係にある． \[\begin{align} & r = np + y \label{Yr} \\ & \begin{aligned} n- r &= n - \pqty{ np + y } \\ &= nq - y \label{Ynr} \end{aligned} \end{align}\] 式\eqref{logP2}の第2項及び第3項に式\eqref{Ynr}及び式\eqref{Yr}をそれぞれ適用すると， \[\begin{aligned} - \pqty{ n-r }\log_{}{\Bqty{\frac{n-r}{nq}}} &= - \pqty{ nq - y } \log_{}{\Bqty{\frac{nq - y}{nq}}} \\ &= - nq \pqty{ 1 - \frac{y}{nq} } \log_{}{\Bqty{1 - \frac{y}{nq} }} \\ - r\log_{}{\Bqty{\frac{r}{np}}} &= - \pqty{ np + y } \log_{}{\Bqty{\frac{np + y}{np}}} \\ &= - np \pqty{ 1+ \frac{y}{np} } \log_{}{\Bqty{1+\frac{y}{np} }} \end{aligned}\] と変形することができる．

見やすくるために， \[ \begin{aligned} x_{1} & = \frac{y}{nq} , \\ x_{2} &= \frac{y}{np} \end{aligned} \notag \] とすると， \[\begin{align} - \pqty{ n-r }\log_{}{\Bqty{\frac{n-r}{nq}}} &= - nq \pqty{ 1 - x_{1} } \log_{}{\Bqty{1 - x_{1} }} \label{logP22} \\ - r\log_{}{\Bqty{\frac{r}{np}}} &= - np \pqty{ 1 + x_{2} } \log_{}{\Bqty{1 + x_{2} }} \label{logP23} \end{align}\] と書くことができる．ここで， \( x_{1} \) 及び \(x_{2} \) は， \( n \to \infty \) という極限でゼロとなることに注意しておく．

さらに， \( x \ll 1 \) のときに成立する対数関数の近似公式 \[ \begin{aligned} \log_{}{\pqty{ 1+x }} &= x - \frac{x^2}{2} + \frac{x^3}{3} - \cdots \\ \log_{}{\pqty{ 1-x }} &= - x - \frac{x^2}{2} - \frac{x^3}{3} - \cdots \end{aligned}\] を，式\eqref{logP22}及び式\eqref{logP23}に適用して計算を進めると \[\begin{aligned} \text{式\eqref{logP22}} &= - nq \pqty{ 1 - x_{1} } \log_{}{\Bqty{1 - x_{1} }} \\ &\approx - nq \pqty{ 1 - x_{1} } \pqty{ -x_{1} - \frac{1}{2}x_{1}^2 - \frac{1}{3}x_{1}^3 - \cdots } \\ &= nq \pqty{ x_{1} - x_{1}^{2} + \frac{x_{1}^{2}}{2} - \frac{x_{1}^{3}}{2} + \frac{x_{1}^{3}}{3} - \frac{x_{1}^{4}}{3} + \cdots } \\ \text{式\eqref{logP23}} &= - np \pqty{ 1 + x_{2} } \log_{}{\Bqty{1 + x_{2} }} \\ &\approx - np \pqty{ 1 + x_{2} } \pqty{ x_{2} - \frac{1}{2}x_{2}^2 + \frac{1}{3}x_{2}^3 - \cdots } \\ & = - np \pqty{ x_{2} + x_{2}^{2} - \frac{x_{2}^{2}}{2} - \frac{x_{2}^{3}}{2} + \frac{x_{2}^{3}}{3} + \frac{x_{2}^{4}}{3} - \cdots } \end{aligned}\] となる．これらの和を取ると, \[\begin{aligned} & nqx_{1} -npx_{2} - \frac{1}{2}nqx_{1}^{2} - \frac{1}{2}npx_{2}^{2} - \frac{1}{6}nqx_{1}^{3} + \frac{1}{6}npx_{2}^{3} + \cdots \\ & \phantom{=} = y - y - \frac{1}{2}\frac{y^2}{nq} - \frac{1}{2}\frac{y^2}{np} - \frac{1}{6}\frac{y^3}{n^2q^2} +\frac{1}{6}\frac{y^3}{n^2p^2} + \cdots \\ &\phantom{=} = - \frac{y^{2}}{2npq}+ \frac{y^{3}}{6n^2p^2q^2}\pqty{ q-p }+\cdots \end{aligned}\] であり，この式の第2項以降の分母には \( n \) の次数が \( 2 \) 以上のものがついてまわるので， \( n \to \infty \) の極限では第1項に比べて早くゼロへ近づくことから，式\eqref{logP2}の第2項及び第3項について \[ - \pqty{ n-r }\log_{}{\Bqty{\frac{n-r}{nq}}} - r\log_{}{\Bqty{\frac{r}{np}}} \to - \frac{y^{2}}{2npq} \label{sub1}\] という近似式を得る．

続いて，式\eqref{logP2}の第1項について，変数変換の式\eqref{Yr}及び式\eqref{Ynr}を用いると， \[\begin{aligned} \frac{n}{2\pi\pqty{ n-r }r} &= \frac{n}{2\pi \Bqty{nq - y } \Bqty{np + y } } \\ & = \frac{1}{2\pi \pqty{ npq + \pqty{ q-p }y - \frac{1}{n}y^2 } } \\ \end{aligned}\] となり，ここで分母の第2項及び第3項は \( n \to \infty \) の極限においては第1項に比べて無視できることから， \[\frac{n}{2\pi\pqty{ n-r }r} \to \frac{1}{2\pi n pq } \label{sub2}\] と近似することができる．

以上，式\eqref{sub1}及び式\eqref{sub2}を式\eqref{logP2}に代入すると， \[\begin{aligned} \log_{}{P(Y=y)} & \approx \frac{1}{2} \log_{}{\Bqty{\frac{n}{2\pi \pqty{ n-r } r } } } - \pqty{ n-r }\log_{}{\Bqty{\frac{n-r}{nq}}} - r\log_{}{\Bqty{\frac{r}{np}}} \\ & \approx \frac{1}{2} \log_{}{\pqty{ \frac{1}{2\pi n p q } }} - \frac{y^{2}}{2npq} \end{aligned}\] が成立する．

両辺の指数をとると，\[\begin{aligned} P\pqty{ Y = y } &= \frac{1}{\sqrt{2\pi npq}} \exp{\bqty{ - \frac{y^2}{2npq} }} \\ P \pqty{ X = r } &= \frac{1}{\sqrt{2\pi npq}} \exp{\bqty{ - \frac{ \pqty{ r - np }^2}{2npq} }} \quad ( \because \ y = x - np ) \end{aligned}\] が成立する．

ここで，二項定理では \[\begin{aligned} \mu &= np \\ \sigma^2 &= npq \end{aligned}\] が成立していることから，最終的に \[P\pqty{ X =r } = \frac{1}{\sqrt{2\pi \sigma^2}} \exp{\bqty{ - \frac{ \pqty{ r - \mu }^2}{2\sigma^2} }}\] が成立し，正規分布の確率密度関数(式\eqref{gauss})に一致していることがわかる．

実際には \( n \to \infty \) までしなくても \( n \) が十分に大きければ非常に精度よく成立する．[↩]
証明については「高校数学の美しい物語」さんの記事、「スターリングの公式とその証明」などを参考にしていただきたい．[↩]