度数分布とヒストグラム | 高校物理の備忘録

ある物理理論が正しいかどうかは常に自然に問う必要がある. すなわち, 実験によって確かめるというステップは欠かせない要素になっている.

何かの値を実験的に調べるにあたっては誤差(不確かさ)がつきものであるが, 繰り返し測定を行うことでより精度よく値を調べられることが知られている.^[1]一般に, ここでは誤差の詳細(分類や評価方法)については立ち入らないでおくことにする.

ここでは, 多数の繰り返し測定実験で得られた測定値(データ)をどのようにまとめるのか(表現するのか), について, その手法を紹介する.

例えば, 多数回の実験で繰り返し得られる値があったとしよう. 我々はその値付近には一目置きたくなるものである. そこで, どのくらいの頻度でその値が得られるかを表現する方法として, 度数分布表やヒストグラムと呼ばれるものを紹介する.

なお, 抽象的な話ではわかりにくい箇所もあるので,
実験1 : およそ \( 100\,\mathrm{cm} \) の物体の長さを測定する
という具体例を適宜取りあげることにする

実験データの見せ方

さて, 実験1を10回繰り返し, 得られた測定値の集まりを人に示す方法を考えよう.

最も単純なものは, 次のように測定した順番どおりに測定値を書き連ねることである.(ただし, 単位 \( \mathrm{cm} \) は省略する.)

\( 101.2 \)	\( 100.1 \)	\( 101.2 \)	\( 100.3 \)	\( 100.4 \)
\( 100.9 \)	\( 100.6 \)	\( 101.1 \)	\( 99.9 \)	\( 101.2 \)

しかし, このままでは実験結果を見せられた側にあまり親切ではない. ここでいう親切でないとは, どの値が最も大きいのかやどの値がもっとも確からしいのかといった解釈を与えるのに苦労するという意味である.

そこで, 測定値の昇順に並べてた形で書き連ねてみよう.

\( 99.9 \)	\( 100.1 \)	\( 100.3 \)	\( 100.4 \)	\( 100.6 \)
\( 100.9 \)	\( 101.1 \)	\( 101.1 \)	\( 101.2 \)	\( 101.2 \)

この表現方法は先程よりは幾分親切となっている. 少なくとも, 最小値や最大値はすぐわかり, データの集合を特徴づける指標である中央値や最頻値などもある程度把握しやすくなる.

ただし, これらの方法では測定回数が増えたとき, その全体像をつかむことが困難になることが予想される.

そこで考えられるのが, 次以降の節で紹介する度数分布という表現方法である ^[2]もちろん, 測定値の中央値などの情報は大切なので, それらは後で分かるようにしておくとデータ解釈の判断材料を減らさずに済むことになる.

度数分布

度数分布とは, 測定値(データ)をある幅で区切り, その区間内の測定値が何個あるのかで集計するものである.

ここで, 区間のことを階級, 区間に属する測定値の個数のことを度数という.

具体例として, 実験1を10回繰り返したことで得られた測定値を \( 0.2\,\mathrm{cm} \) 毎の区間で階級分けし, その度数がどうなっているのかを下表にまとめる.

この表によって, 測定値が特定の階級に分類される頻度が明らかになることから度数分布表と呼ばれている.

区間(階級)	度数
\( \cdots \)	\( \cdots \)
\( 99.5 \,\mathrm{cm} \) 以上 \( 99.7 \,\mathrm{cm} \) 未満	\( 0 \)
\( 99.7 \,\mathrm{cm} \qquad 99.9 \,\mathrm{cm} \)	\( 0 \)
\( 99.9 \,\mathrm{cm} \qquad 100.1 \,\mathrm{cm} \)	\( 1 \)
\( 100.1 \,\mathrm{cm} \qquad 100.3 \,\mathrm{cm} \)	\( 1 \)
\( 100.3 \,\mathrm{cm} \qquad 100.5 \,\mathrm{cm} \)	\( 2 \)
\( 100.5 \,\mathrm{cm} \qquad 100.7 \,\mathrm{cm} \)	\( 1 \)
\( 100.7 \,\mathrm{cm} \qquad 100.9 \,\mathrm{cm} \)	\( 0 \)
\( 100.9 \,\mathrm{cm} \qquad 101.1 \,\mathrm{cm} \)	\( 1 \)
\( 101.1 \,\mathrm{cm} \qquad 101.3 \,\mathrm{cm} \)	\( 4 \)
\( 101.3 \,\mathrm{cm} \qquad 101.5 \,\mathrm{cm} \)	\( 0 \)
\( 101.5 \,\mathrm{cm} \qquad 101.7 \,\mathrm{cm} \)	\( 0 \)
\( \cdots \)	\( \cdots \)

ヒストグラム

度数分布表をより視覚的に捉えやすくするため, 下図のように度数を柱状のグラフで表したものをヒストグラムという. また, ヒストグラム中の各柱のことをビンと呼ぶ.

ヒストグラムは多数のデータを取り扱う分野において広く用いられている表現方法である.

実験1を繰り返し続けていくと, ヒストグラムはどんどん成長していく. 下図は測定回数を多数回行った時にヒストグラムが育っていく様子をシミュレートしたものである.

測定回数が増えていくにつれ, 初めはまとまりのなかった測定データでも徐々にその傾向が明らかになっていく.(そして, 約 \( 100\,\mathrm{cm} \) という前評判がどの程度正しいのかがわかってくる.)

なお, ヒストグラムからどのように情報を抽出するのかについては別に議論することにする. まずは度数分布表及びヒストグラムという表現方法の存在を認識しておいてもらいたい.

ヒストグラムを描くにあたってはいくつか気にかけておきたい点があり, その中でもヒストグラムのビン幅(階級の幅)をどのように設定すべきかはしばしば議論の対象となる. というのも, せっかく多数のデータを取得してもヒストグラムの幅が適切でなければその有効性が失われてしまいかねないのである.

下図には, ヒストグラムのビン幅を狭めたり, ビン幅を広げた時に同じデータを用いたヒストグラムがどのように変化するかを例示した.

ビン幅を狭めた場合, 各ビンにデータが格納される度数が下がりヒストグラムの全体像がつかみくくなってしまう.

逆に, ビン幅が広すぎるとヒストグラムが大雑把なものとなってしまい, 細かな情報が失わることになってしまう.

このように, ヒストグラムのビン幅によってヒストグラムの形状も異なってきてしまう. ビンの幅(階級の幅)をどの程度にするのかについてはいつくかの方法が知られているが, 扱うデータの種類や分布の形によって適宜選択していくことになる ^[3]この試行錯誤は研究を始めた時などに出会うことになる.

ヒストグラムの一般論

上記の内容を少しばかり一般化した形で表現しておこう.

今, ある量 \( X \) の測定値を \( x \) とする. そして, \( i \) 番目の階級の下限を \( x_{i-1} \) , 上限を \( x_{i} \) とし, \( i \) 番目の階級( \( x_{i-1} \le x < x_{i} \) )に属するデータの個数(=度数)を \( f_{i} \) とする.

一般のヒストグラムにおいて, \( i \) 番目の階級(ビン)の幅 \( \Delta x_{i} \) を \( \Delta x_{i} = x_{i} – x_{i-1} \) としたとき, \( \Delta x_{i} \) は必ずしも同じ(等間隔)である必要はない. しかし, その場合には注意が必要であることを補足にまとめておく^[4]ヒストグラムというのはその見た目から棒グラフと誤解されることもままあるが, 実際にはその面積が度数に相当しているのである. したがって, … Continue reading. とはいえ, 現実に目にする頻度が高いのは各階級の幅 \( \Delta x \) が一定なモノが多いであろう.
ここでも特に断りのない限りは各階級の幅は一定であるとする.

また, 各階級を代表する値を階級値といい, 階級の中央の値で表すことが多く, 今の場合 \( i \) 番目の階級の階級値は \[ \frac{x_{i} + x_{i-1}}{2} \notag \] で表すことにする.

\( n \) 個の有効なデータを用いて作成したヒストグラムでは \[\sum_{i} f_{i} = n \notag \] が成立する. ここで, \( \displaystyle{\sum_{i}} \) は存在する階級の数だけ和を取ることを意味している.

したがって, 一般的な度数分布表は次のようにあらわすことが出来る.

区間(階級)	度数
\( \cdots \)	\( \cdots \)
\( x_{i-2} \le x < x_{i-1} \)	\( f_{i-1} \)
\( x_{i-1} \le x < x_{i} \)	\( f_{i} \)
\( x_{i} \le x < x_{i+1} \)	\( f_{i+1} \)
\( x_{i+1} \le x < x_{i+2} \)	\( f_{i+2} \)
\( \cdots \)	\( \cdots \)
合計	\( n \)

具体例

先ほどの具体例を再度整理してみよう. 1つめの階級の最小値は全測定値の最小値よりも小さければ問題はないので, 1つめの階級の最小値 \( x_{0} \) を \( 99.5\,\mathrm{cm} \) とし, 階級の区間幅 \( \Delta x \) を \( 0.2\,\mathrm{cm} \) として作成したのが先ほどの度数分布表であった.

\( x_{i-1}\,[\mathrm{cm}] \)	\( x_{i}\,[\mathrm{cm}] \)	度数 \( f_{i} \)
\( 99.5 \)	\( 99.7 \)	\( f_{1}=0 \)
\( 99.7 \)	\( 99.9 \)	\( f_{2}=0 \)
\( 99.9 \)	\( 100.1 \)	\( f_{3}=1 \)
\( 100.1 \)	\( 100.3 \)	\( f_{4}=1 \)
\( 100.3 \)	\( 100.5 \)	\( f_{5}=2 \)
\( 100.5 \)	\( 100.7 \)	\( f_{6}=1 \)
\( 100.7 \)	\( 100.9 \)	\( f_{7}=0 \)
\( 100.9 \)	\( 101.1 \)	\( f_{8}=1 \)
\( 101.1 \)	\( 101.3 \)	\( f_{9}=4 \)
\( 101.3 \)	\( 101.5 \)	\( f_{10}=0 \)

この度数分布表において, \( i \) 番目の階級の度数 \( f_{i} \) と全データ数 \( n=10 \) とは次の関係にある. \[\begin{aligned} \sum_{i}f_{i} &= f_{1} +f_{2} + f_{3} +f_{4} +f_{5}+f_{6} + f_{7} +f_{8} +f_{9} + f_{10} \\ &= 0 + 0 + 1 + 1 + 2 + 1 + 0 + 1 + 4 + 0 \\ &= 10 \end{aligned}\]

相対度数分布

度数分布はある階級に含まれる数を書き表したものであった.

次にこれらの情報を使って我々が興味のある内容の1つは, これまでの測定で \( i \) 番目の階級が得られた確率であったり, 次の測定値が \( i \) 番目の階級に含まれる数となる確率の予測である. これを表すものとして相対度数分布と呼ばれるものがある.

\( i \) 番目の階級の幅 \( \Delta x_{i} \) が全て同じ \( \Delta x \) である場合, それぞれの階級の度数 \( f_{i} \) を全データの数 \( n \) で割った値をその階級の相対度数といい, \( i \) 番目の階級の相対度数は \[\frac{f_{i}}{n} \quad \qty( n = \sum_{i} f_{i} ) \notag \] で表される.

つまり, 度数全体を \( 1 \) としたときの \( i \) 番目の階級の度数のことを相対度数というのである.

このような定義の性質上, 相対度数で表した度数分布表 — 相対度数分布表 — では各階級の相対度数について和を取ると \( 1 \) となる.

区間(階級)	相対度数
\( \cdots \)	\( \cdots \)
\( x_{i-2} \le x < x_{i-1} \)	\( f_{i-1} / n \)
\( x_{i-1} \le x < x_{i} \)	\( f_{i} / n \)
\( x_{i} \le x < x_{i+1} \)	\( f_{i+1} / n \)
\( x_{i+1} \le x < x_{i+2} \)	\( f_{i+2} / n \)
\( \cdots \)	\( \cdots \)
合計	\( 1 \)

再度, 実験1の度数分布をその相対度数もあわせて表記したのが次の表である.

区間(階級)	度数 \( f_{i} \)	相対度数 \( \frac{f_{i}}{n} \)
\( \cdots \)	\( \cdots \)	\( \cdots \)
\( 99.5 \le x\,[\mathrm{cm}] < 99.7 \)	\( 0 \)	\( 0 \)
\( 99.7 \le x\,[\mathrm{cm}] < 99.9 \)	\( 0 \)	\( 0 \)
\( 99.9 \le x\,[\mathrm{cm}] < 100.1 \)	\( 1 \)	\( 0.1 \)
\( 100.1 \le x\,[\mathrm{cm}] < 100.3 \)	\( 1 \)	\( 0.1 \)
\( 100.3 \le x\,[\mathrm{cm}] < 100.5 \)	\( 2 \)	\( 0.2 \)
\( 100.5 \le x\,[\mathrm{cm}] < 100.7 \)	\( 1 \)	\( 0.1 \)
\( 100.7 \le x\,[\mathrm{cm}] < 100.9 \)	\( 0 \)	\( 0 \)
\( 100.9 \le x\,[\mathrm{cm}] < 101.1 \)	\( 1 \)	\( 0.1 \)
\( 101.1 \le x\,[\mathrm{cm}] < 101.3 \)	\( 4 \)	\( 0.4 \)
\( 101.3 \le x\,[\mathrm{cm}] < 101.5 \)	\( 0 \)	\( 0 \)
\( 101.5 \le x\,[\mathrm{cm}] < 101.7 \)	\( 0 \)	\( 0 \)
合計	\( 10 \)	\( 1 \)

また実験1を繰り返し続けていったときの, 相対度数分布を表すヒストグラムの様子が下図である. 単に度数分布を描いたヒストグラムでは縦軸が度数に応じて伸びていくが, 相対度数分布をあらわすヒストグラムは確率を表しており, 徐々にその変動幅が小さくなっていくこともわかる.

脚注[+]

脚注
⇡1	一般に, ここでは誤差の詳細(分類や評価方法)については立ち入らないでおくことにする.
⇡2	もちろん, 測定値の中央値などの情報は大切なので, それらは後で分かるようにしておくとデータ解釈の判断材料を減らさずに済むことになる
⇡3	この試行錯誤は研究を始めた時などに出会うことになる
⇡4	ヒストグラムというのはその見た目から棒グラフと誤解されることもままあるが, 実際にはその面積が度数に相当しているのである. したがって, もしある階級の幅が他の階級の幅に比べて \( k \) 倍の広さとなっているのであれば, その階級の柱の高さを \( 1/k \) 倍する必要がある.