二項分布のまとめ

統計

この記事では統計検定2級でも頻出の二項分布についてまとめています。私が2級合格のために勉強した際のメモを清書したものになります。 正規分布と合わせて二項分布も押さえておくことで、合格の可能性がぐっと高まります。忘れやすい確率関数の式や正規近似の方法などを載せていますので、忘れたらこのページに戻ってきて復習に役立ててください。

二項分布とは

n回の試行のうちある事象が起こる回数が従う確率分布を二項分布と呼びます。 物事が「起きる」か「起きないか」の2択になっているので二項、と考えるとわかりやすいかもしれません。 正しくは二項係数(\((x+y)^n\)の展開式の係数)が由来です。これも\(x\)または\(y\)の2択を\(n\)回行うことと対応しています。後述の二項分布の確率関数の式を見るとよりイメージが湧くでしょう。

二項分布に従うものの例

以下は二項分布に従うものの例です。

  • コインを5回投げて表が出る回数 (表 or 裏)
  • サイコロを10回降って偶数の目が出る回数 (偶数 or 奇数)
  • サイコロを10回降って3の倍数の目が出る回数 (3の倍数 or 3の倍数でない)
  • 無作為抽出した500人のうち、ある政策に対して賛成している人の数 (賛成 or 反対)

二項分布の確率関数・平均・分散

二項分布\(Bin(n, p)\)は離散確率分布なので確率関数(確率質量関数)で定義できます。 パラメータは確率\(p\)と試行回数\(n\)です。\(0 \le p \le 1\), \(n\in \mathbb{N}\)(自然数) とします。真のパラメータである\(p\)のことを母比率と呼んだりもします。

二項分布の確率関数
$$ P(X=x)={ }_{n} \mathrm{C}_{x} p^{x} (1-p)^{n-x} \quad (x=0,1, \dots, n) $$
二項分布の平均・分散
$$E[X]=n p, \quad V[X]=n p (1-p) $$

この平均と分散は定義に従って計算すると確かめられますが、ここでは省略します。

再生性

二項分布には再生性があります。すなわち、\(X_{1} \sim Bin(n_{1}, p), X_{2} \sim Bin(n_{2}, p)\)で\(X_{1},X_{2}\)が独立のとき、これらの和について以下が成り立ちます。 $$ X_{1}+X_{2} \sim Bin(n_{1}+n_{2}, p) $$ 「二項分布の和も二項分布に従う」ということです。和を取るときに\(p\)は同じである点に注意してください。同じ確率で成功する試行の成功回数の和も確かに全体としての成功回数になっていそうな感じがしますね。 他にも正規分布やポアソン分布、カイ二乗分布なども再生性を持っています。

  • 二項分布の和も二項分布に従う。(再生性)

正規近似

\(n\)が十分大きい時、二項分布は正規分布で近似できます。母比率の検定において、この近似がよく使われます。 \(X\)が二項分布に従うとします。\(n\)が十分大きいと仮定すると、中心極限定理より\(X\)は平均\(E[X]=np\)、分散\(V[X]=np(1-p)\)の正規分布で近似できます。そこでこの正規分布に従う(とみなせる)\(X\)に標準化を行うと、 $$ Z = \frac{X-np}{\sqrt{np(1-p)}} $$ は近似的に標準正規分布\(N(0,1)\)に従う。 分母分子を\(n\)で割り、母比率の推定量を\(\hat{p}=X/n\)として表しなおすと、 $$ Z = \frac{\hat{p}-p}{\sqrt{\hat{p}\left(1-\hat{p}\right) / n}} $$ となります。ただし計算が複雑にならないよう、分母の中にある母比率\(p\)は推定値\(\hat{p}\)で置き換えています。\(n\)が大きくなればこの推定値は真値に近づくので、置き換えた統計量を用いてもそこまで問題にはなりません。 こうすることで、本来考えていた二項分布ではなく正規分布だけを考えて母比率を検定することができます(ただし\(n\)が十分大きいときに限ります)。

  • \(n\)が十分大きい時、二項分布は正規分布で近似できる。(中心極限定理)

幾何分布・多項分布

二項分布と似た確率関数を持つ分布として、幾何分布や多項分布があります。

(今後執筆予定)

ポアソン分布

二項分布を\(np=\lambda\) (一定)という条件のもとに\(n\to \infty\)とするとポアソン分布に収束します。

ポアソン分布の確率関数
$$ P(X=x)=\frac{e^{-\lambda} \lambda^{x}}{x!} \quad(x=0,1,2, \ldots) $$
ポアソン分布の平均・分散
$$E[X]=V[X]=\lambda $$

この分布は「ある期間に物事が発生する回数」を表します。工場などの不良品発生個数の分布などで応用されています。

おわりに

二項分布の基本的な性質をまとめました。コインやサイコロ投げなど非常に親しみある確率現象を表すものであり、特に統計検定2級では正規分布と並ぶぐらい重要かつ頻出な確率分布です。忘れてしまったときにはこのページを見返していただき、復習に役立ててください。

最後までお読みいただきありがとうございました!

しゅがでした。ではまた!

↓こちらの記事もどうぞ!

コメント

タイトルとURLをコピーしました