母集団と標本

物理実験にしろ, アンケート調査にしろ, 我々はまずもってどんな量に興味が有るのが, どんな集団を調べることでその特徴がわかるのかを把握しておく必要がある.

いま, 我々が興味のある情報をもっている全集団のことを母集団という. 母集団の全要素を調べてまわれば, その集団の分布や統計的な性質を十分に理解することができるであろう.

母集団からなにかしらの方法で抽出(<\rp>サンプリング)<\rp>された集団のことを標本という. 標本の全要素を調べてまわれば, 少なくともその標本の統計的な性質は十分に理解することができるであろう.

しかしながら, 統計学を用いる場合の多くの目的は, 標本を調べることで標本の元となった母集団が一体どんな統計的な性質を持っているのかを予測することである.

たとえば, 日本人のある年齢における身長について興味が有る場合, その年齢の全日本人が母集団ということになる. しかし, この母集団全てに対して調査を行うことは困難であり, ある程度の人数を無作為にあるいは作為的に抽出した人々に対して調査を行うことで母集団全体の性質を予測する, といった具合である.

このような事情から, 今後は母集団に対する期待値, 分散, 標準偏差といった統計的な量と, 標本に対する期待値, 分散, 標準偏差といった統計的な量とは区別して考えることにしよう. 統計学を学ぶにあたってはこの区別が重要な場面が増えてくることを注意しておく.

この区別の意味は不偏推定量の項目でより具体的に述べることにする.

以下, 母集団の統計的な諸性質と, その母集団から抽出された標本がもつ統計的な諸性質は一致するとは限らないということを念頭において注意深く読み進めてほしい.

また, 各確率分布の解説を行なっている各ページで計算した期待値(平均)や分散は母集団に対して定義されたものであることを注意しておく.

抽出

無作為抽出と有意抽出

母集団からとある集団を取り出す作業を抽出という.

抽出には大きく分けて, 無作為抽出有意抽出とに別けることができるであろう.

無作為抽出とは, 母集団のどの要素も全く等しい確率で選ばれる可能性があることを意味しており, 恣意的ではないことを意味している

有意抽出とは, 母集団の中に選ばれやすい特徴を持った一群がおり, 恣意的な操作を含んだ抽出のことを意味している.

母集団の性質が最も良く反映されるように標本を抽出したいのであれば, 出来る限り無作為抽出がなされるように努力がなされるべきである. しかしながら, 意図せず有意抽出になってしまう場合もあるので注意が必要となる.

例えば, とある大学生が「大学生の1日の学習時間」を調べようと決意したとしよう. そこで自分の友人の好き嫌いにかかわらず, 連絡先を知っている友人にランダムに連絡をとって調査したとしよう. この場合, 明らかにその人と比較的境遇の似た人間に情報が偏ることが予想される. 大学によっては(悲しいことに)のらりくらりと生きていても卒業できるところもあれば, そうでないところもありえるが, 調査者本人の学力的・地理的に近い集団が作為的に選ばれてしまっていることになる. ほんとうに無作為に抽出したいのであれば, 友人の垣根を超えて, 日本の大学に所属している人間の全ての名簿からランダムに抽出してこなくてはならない.

母集団全てを調べるのも骨が折れる作業なのだが, 無作為に抽出するというこの操作だけでも1つの学問として成立するほどに十分奥深いものである.

ここでは, どんな抽出方法が真に無作為であるかという議論には立ち入らず, 母集団からの抽出は素直な意味でランダムに行われる無作為抽出であると仮定する.

復元抽出と非復元抽出

ある母集団から標本を抽出するにあたり, 1度選んだ対象をまた元に戻して再度抽出作業を繰り返す抽出法を復元抽出, 1度選んだ対象は二度と抽出対象にはならないという抽出方法を非復元抽出と言う.

母集団の数が少ない場合には復元抽出によって集められた標本と, 非復元抽出で集められた標本とでは統計学的な解釈が若干異なることが予想される.

ただし, 母集団の数が標本の数に対して十分に大きい場合には, たとえ非復元抽出であっても復元抽出とみなすことができるであろう.

物理では母集団の数が相当量存在することも多いので, 特に断らないかぎり, 抽出方法は復元抽出であると仮定することにする.

母集団の期待値, 分散

母集団が \( n \) 個の確率変数 \( \left\{X_{i} \mid i=1 ,2, \cdots, n \right\} \) からなるとき, 母集団の期待値 \( E(X)=\mu \) , 母集団の分散 \( V(X)=\sigma^2 \) を次式で定義する. \[\begin{align} \mu &= E(X) \coloneqq \frac{1}{n} \sum_{i=1}^{n} X_{i} \label{mE}\\ \sigma^2 &= V(X) \coloneqq \frac{1}{n} \sum_{i=1}^{n} \qty( X_{i} – \mu )^2 \notag \\ &= \frac{1}{n} \sum_{i=1}^{n} X_{i}^2 – \mu^2 \notag \\ &= E(X^2) – \left\{E(X) \right\}^2 \notag \end{align}\] \( \mu \) は母平均, \( \sigma^2 \) は母分散などと呼ばれる.

標本の期待値, 分散

標本が \( n \) 個の確率変数 \( \left\{X_{i} \mid i=1 ,2, \cdots, n \right\} \) からなるとき, この標本に対する期待値や分散の定義について紹介する.

標本の期待値 \( \bar{X} \) を標本平均と呼び, 次式で定義する. \[\bar{X} \coloneqq \frac{1}{n} \sum_{i=1}^{n}X_{i} \quad . \label{sE}\]

繰り返しの注意になるが, 式\eqref{sE}の標本平均は形式上, 式\eqref{mE}の母平均と同じであるが, これらの量が一致するとは限らず, 互いにどんな関係にあるのかはまだ定かではない.

続いては分散の定義である. 初学者を困惑させてしまうようだが, 標本に対する分散には二つの定義が存在する. さらに困ったことに, その呼び名は統計学の教科書によっていくつかの流儀があるようで, その教科書や状況に応じて定義の確認を行う必要がある.

一つは次式のように記号 \( s \) を用いて定義される分散で, ここでは標本の分散と呼ぶことにする. \[s^2 \coloneqq \frac{1}{n}\sum_{i=1}^{n}\qty( X_{i} – \bar{X} )^{2} \label{sigma1}\] ここで, \( s \) は標本の標準偏差などと呼ばれる. この \( s \) は英語ではuncorrected sample standard deviationと呼ばれている.

もう一つは次式のように記号 \( u \) を用いて定義される分散で, ここでは不偏分散と呼ぶことにする. \[ \begin{equation} \begin{aligned} u^2 \coloneqq & \frac{1}{n-1}\sum_{i=1}^{n}\qty( X_{i} – \bar{X} )^{2} \\ =&\frac{n}{n-1}s^2 \end{aligned} \label{sigma2} \end{equation} \] ここで, \( u \) は不偏分散の平方根などと呼ばれる. この \( u \) は英語ではcorrected sample standard deviationと呼ばれている.

いわゆる \( n \) で割る分散を \( s^2 \) , \( n-1 \) で割る分散を \( u^2 \) と定義するのである.

わざわざ英語の呼び名を書き添えたのは理由がある. 式\eqref{sigma1}についてはuncorrected sample standard deviation, 式\eqref{sigma2}についてはcorrected sample standard deviationと呼ばれている通り, 式\eqref{sigma2}の不偏分散のほうが工夫されて定義された分散なのである.

この意味は不偏推定量でより掘り下げて議論することにする.

母集団と標本の期待値と分散

母集団 \( \left\{X_{i} \mid i=1 ,2, \cdots, n \right\} \) の母平均 \( E(X)=\mu \) , 母分散 \( V(X)=\sigma^2 \) を次式で定義する. \[\begin{aligned} \mu & = E(X) \coloneqq \frac{1}{n} \sum_{i=1}^{n} X_{i} \\ \sigma^2 & = V(X) \coloneqq \frac{1}{n} \sum_{i=1}^{n} \qty( X_{i} – \mu )^2 \\ & = E(X^2) – \left\{E(X) \right\}^2 \notag \end{aligned}\] 標本 \( \left\{X_{i} \mid i=1 ,2, \cdots, n \right\} \) の標本平均 \( \bar{X} \) , 標本の分散 \( s^2 \) , 不偏分散 \( u^2 \) を次式で定義する. \[\begin{aligned} \bar{X} & \coloneqq \frac{1}{n} \sum_{i=1}^{n} X_{i} \\ s^2 & \coloneqq \frac{1}{n} \sum_{i=1}^{n} \qty( X_{i} – \bar{X} )^2 \\ u^2 & \coloneqq \frac{1}{n-1} \sum_{i=1}^{n} \qty( X_{i} – \bar{X} )^2 = \frac{n}{n-1}s^2 \end{aligned}\]