チェビシェフの不等式

統計学で, 適用範囲が広い不等式, チェビシェフの不等式を紹介する.

スポンサーリンク

チェビシェフの不等式とその概要
チェビシェフの不等式の証明
チェビシェフの不等式の簡単な使い方

チェビシェフの不等式とその概要

まずはじめに, いまから議論する内容の全体像を端的に述べておこう.

ある確率変数について, その期待値周りに着目しよう. 着目する領域が広ければ広いほどその範囲内に確率変数の値が得られる確率 \( P \) が大きくなることは想像に易いが, これに加え, \( P \) には注目する領域の広さに応じた最小値が存在することがチェビシェフの不等式の主張である.


チェビシェフの不等式を数式で表現しておこう.

確率変数 \( X \) の期待値を \( \mu \) , 標準偏差を \( \sigma \) とするとき, 任意の正の数 \( k \) に対して成立する. \[P(\left| X- \mu \right| < k ) \ge 1 – \frac{\sigma^2}{k^2} \notag \] 抽象的でとっつきにくいように思われがちであるが, 丁寧に見ていけば大それた式ではないことがわかる.

まず左辺の \( P(\left| X- \mu \right| < k ) \) について読み解こう.

\( \left|X – \mu\right| \) が確率変数 \( X \) が \( \mu \) から離れている具合をあらわしていることは良いであろう. この \( \left|X – \mu\right| \) がある値 \( k \) よりも小さいのが得られる確率 \( P(\left| X- \mu \right| < k ) \) が左辺である.

「 \( k \) が大きければ, \( X \) が期待値 \( \mu \) からかなり離れていてもその値が得られる確率も含めて考えることになり, \( k \) が小さいならば \( X \) が \( \mu \) の近辺に値が得られる確率を考えますよ」と言っているだけであり, \( k \) は何か領域の幅に相当している数だということがわかる.

左辺の \( P(\left| X- \mu \right| < k ) \) がある値以上になると主張しているのがチェビシェフの不等式であり, そのある値が右辺の \( 1- \sigma^2/k^2 \) と主張しているので, 次は左辺と右辺を一緒に考えてみよう.

\( k \) が大きければ, 左辺は \( X \) が比較的 \( \mu \) から離れた場所で得られる場合も考慮した確率となり, このとき, 右辺の \( 1-\sigma^2/k^2 \) は限りなく \( 1 \) に近づいていくが, \( P(\left| X- \mu \right| < k ) \) はそれ以上に大きな値となることを意味している.

もう少し砕いて言えば, \( k \) というのはどのくらいの範囲におさまる確率変数を取り扱うのかという期待値周りの領域の幅に相当し, 幅が大きければ大きいほど確率変数がその区間内に得られる確率が上昇すること, その確率には最小値が存在することがチェビシェフの不等式の主張である.

チェビシェフの不等式の証明

いま, \[P(\left| X- \mu \right| < k ) \ge 1 – \frac{\sigma^2}{k^2} \label{cheb}\] が成立することを示そう.この式は確率 \( P(\left| X- \mu \right| < k ) \) について成立する不等式であるが, その余事象の確率 \[P(\left| X- \mu \right| \ge k ) = 1 – P(\left| X- \mu \right| < k )\] について次の式が成り立つことを示せれば良い. \[\begin{aligned} & 1 – P(\left| X- \mu \right| \ge k ) \ge 1 – \frac{\sigma^2}{k^2} \\ \to \ & P(\left| X- \mu \right| \ge k ) \le \frac{\sigma^2}{k^2} \end{aligned}\]

確率変数 \( X \) が離散型であれ連続型であれ証明の手順は変わらないので, 以下では離散型確率変数について証明する.

いま, 確率変数 \( X \) の値が \( \left| X-\mu \right|\ge k \) となるグループ \( x_{1}, x_{2}, \cdots \) と \( \left| X-\mu \right| < k \) となるグループ \( y_{1}, y_{2}, \) にわけて考え見てよう[1]. この時, 注目している確率 \( P(\left| X- \mu \right| \ge k ) \) は \[P(\left| X-\mu \right|\ge k ) = P(X=x_{1}) + P(X=x_{2}) + \cdots \label{chp}\] と書くことが出来る.

また, 分散 \( V=\sigma^2 \) について次の不等式が成立する. \[\begin{aligned} \sigma^2 &= \underbrace{ \sum_{i} \left( x_{i} – \mu \right)^2 P(X=x_{i}) }_{\text{\( \left| X-\mu \right|\ge k \) のグループ}}+ \underbrace{\sum_{j} \left( y_{j} – \mu \right)^2 P(X=y_{j})}_{\text{\( \left| X-\mu \right|\ge k \) 以外のグループ}} \\ &= \left(x_{1}-\mu\right)^2P(X=x_{1}) + \left(x_{1}-\mu\right)^2P(X=x_{2}) + \cdots \\ &\phantom{=} + \left(y_{1}-\mu\right)^2P(X=y_{1}) + \left(y_{2}-\mu\right)^2P(X=y_{2}) + \cdots \\ &\ge \underbrace{\left(x_{1}-\mu\right)^2}_{\ge k^2 }P(X=x_{1}) + \underbrace{\left(x_{1}-\mu\right)^2}_{\ge k^2}P(X=x_{2}) + \cdots \\ &\ge k^2P(X=x_{1})+k^2P(X=x_{2})+k^2P(X=x_{3})+\cdots \\ &\underbrace{=}_{\text{式\eqref{chp}}} k^2 \left\{ \right. P(X=x_{1}) + P(X=x_{2}) + \cdots \\ &= k^2 P(\left| X-\mu \right|\ge k ) \end{aligned}\] \[\therefore \ \frac{\sigma^2}{k^2} \ge P(\left| X-\mu \right|\ge k )\] が成立していることがわかる.

この式はいま我々が証明したかった式にほかならず, チェビシェフの不等式 \[P(\left| X- \mu \right| < k ) \ge 1 – \frac{\sigma^2}{k^2} \label{ch1} \] が成立することが示された.


チェビシェフの不等式はいくつかの書き方があり, 次の不等式も同じ意味を持っている. \[P(\left| X- \mu \right| < k\sigma ) \ge 1 – \frac{1}{k^2} \label{ch2} \] 式\eqref{ch2}は式\eqref{ch1}における \( k \) を \( k \to k \sigma \) という置き換えを行うことで得られる.

チェビシェフの不等式

確率変数 \( X \) の期待値を \( \mu \) , 標準偏差を \( \sigma \) とするとき, 任意の正の数 \( k \) に対してチェビシェフの不等式が成立する. \[ \begin{aligned} & P(\left| X- \mu \right| < k ) \ge 1 – \frac{\sigma^2}{k^2} \\ \iff \ & P(\left| X- \mu \right| \ge k ) \le \frac{\sigma^2}{k^2} \end{aligned} \]

チェビシェフの不等式の簡単な使い方

チェビシェフの不等式 \[P(\left| X- \mu \right| < k ) \ge 1 – \frac{\sigma^2}{k^2} \notag \] の適用範囲は広く浅いので, 一度チェビシェフの不等式を認めてしまえば確率分布に対するざっくりとした性質を読み取ることができる.

例えば, \( k \) の値を \( k=2\sigma \) とすれば, \[P(\left| X- \mu \right| < 2\sigma ) \ge 1 – \frac{\sigma^2}{4\sigma^{2}} = \frac{3}{4} \notag \] であることがわかり, 確率変数 \( X \) が \( \mu-2\sigma \sim \mu+2\sigma \) の範囲内の値を取る確率は \( 75\% \) 以上であること, 全く同値の主張として, \( \mu \) から \( 2\sigma \) よりも離れた値をとる確率が \( 25\% \) 以下であることがわかる.




補足    (↵ 本文へ)
  1. 便宜的に二つの文字 \( x \) , \( y \) を使ったが, これらは同じ確率分布に従う確率変数 \( X \) の値である.

スポンサーリンク

この記事をシェアする

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です