正規分布のまとめ

統計

この記事では統計検定2級でも頻出の正規分布についてまとめています。私が2級合格のために勉強した際のメモを清書したものになります。

数理統計において最も重要な分布がこの正規分布です。標準化や中心極限定理など2級合格には必須の内容となっています。忘れたらこのページに戻ってきて復習に役立ててください。

正規分布とは

正規分布は自然現象や社会現象、また統計的手法そのものにおいても非常によく現れる確率分布です。ガウス分布ともいいます。

正規分布は平均\(\mu\), 分散\(\sigma^{2}\)の2つのパラメータで定まっており、\(\mu\)を中心に\(\sigma^{2}\)程度だけばらつくような現象を表現しています。

正規分布の確率密度関数

正規分布の確率密度関数

 

正規分布に従うものの例

  • 身長や体重などの生物学的特徴
  • 実験における観測誤差
  • 抽出した標本の平均(≒和)

これらはすべて正規分布に従うことが知られています。特に標本の平均が正規分布に従うという性質は後述の中心極限定理によって導かれます。

正規分布の密度関数・平均・分散

確率変数\(X\)が平均\(\mu\in\mathbb{R}\), 標準偏差\(\sigma>0\)の正規分布\(N(\mu,\sigma^{2})\)に従うとします。

正規分布の確率密度関数
$$
f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)
$$

当たり前ですが、\(X\)の平均(期待値)は\(E[X]=\mu\), 分散は\(V[X]=\sigma^{2}\)になります。これは定義に従って計算すると確かめられますが、ここでは省略します。

正規分布の平均・分散
$$
E[X]=\mu, \quad  V[X]=\sigma^{2}
$$

正規分布の確率密度関数は左右対称のつりがね型になっています(ベル・カーブと呼んだりします)。

このような分布の特徴として、平均・中央値・最頻値がすべて一致します

標準正規分布

特に平均\(0\), 標準偏差\(1\)の正規分布\(N(0,1)\)を標準正規分布といいます。

標準正規分布
\(N(0,1)\)を標準正規分布という。

一般の正規分布を扱う場合も、後述の標準化を行うことですべて標準正規分布に帰着させることができます。そのため、この標準正規分布を正しく扱えることが非常に重要になってきます。

以下、確率変数\(Z\)が標準正規分布\(N(0,1)\)に従うとします。

標準正規分布の確率密度関数
慣習的に確率密度関数を\(\varphi(z)\)で表すことが多い。
$$
\varphi(z) =\frac{1}{\sqrt{2 \pi}} e^{-\frac{z^{2}}{2}}
$$

標準正規分布の累積分布関数
慣習的に累積分布関数を\(\Phi(z)\)で表すことが多い。
$$
\Phi(z) =P(Z \leq z)=\int_{-\infty}^{z} \varphi(t) \ dt
$$

標準化と例題

確率変数\(X\)が平均\(\mu\in\mathbb{R}\), 標準偏差\(\sigma>0\)の正規分布\(N(\mu,\sigma^{2})\)に従うとします。

確率変数\(Z\)を以下のように定めたとき、\(Z\)は標準正規分布\(N(0,1)\)に従います。

$$
Z=\frac{X-\mu}{\sigma}
$$

この操作のことを標準化と呼びます。分布の中心を\(\mu\)から\(0\)に平行移動させ、分布の横幅を\(\sigma\)から\(1\)にスケーリングさせている、というイメージです。

具体的に例題を見てみましょう。

例題
ある学校の数学のテストの点数が、平均\(50\), 標準偏差\(20\)の正規分布に従っているとする。ある生徒を無作為に1人選んだとき、その生徒の数学の点数が\(80\)点以上である確率を求めよ。

この例題は次のように言い換えることができます。

例題’
正規分布\(N(50,20^{2})\)に従う確率変数\(X\)に対し、\(X\ge 80\)となる確率を求めよ。

[解].
$$
P(X\ge 80) = P(X-50 \ge 30)
= P\left(\frac{X-50}{20} \ge 1.5\right)
$$
\(Z=(X-50)/20\)とすると、\(Z\sim N(0,1)\)に従う(標準化)。標準正規分布表(こちらのサイトなどを参照)より、
$$
P(Z \ge 1.5) = 0.066807
$$
よって求める確率は\(0.066807\)。
  • 標準化で平均0、分散1の標準正規分布に帰着できる。
    $$
    Z=\frac{X-\mu}{\sigma} \sim N(0,1)
    $$

中心極限定理

定理

\(X_{1},\dots,X_{n}\)がすべて平均\(\mu\), 分散\(\sigma^{2}\)の独立同一分布に従うとします。また \(X_{1},\dots,X_{n}\)の標本平均を\(\bar{X}_{n}\)とします。このとき、

$$Z_{n}=\frac{\bar{X}_{n}-\mu}{\sigma/\sqrt{n}}$$

は正規分布 \(N(0, 1)\)に分布収束します。これを中心極限定理(Central Limit Theorem, CLT)といいます。

ここでいう分布収束とは(累積)分布関数が収束するという意味ですが、要するにこの定理でいいたいのは、\(n\)が十分大きいときは\(Z_{n}\)は正規分布で近似できるということです。

\(X_{1},\dots,X_{n}\)の従う確率分布は何でもよいです。ちゃんと平均と分散が存在しさえすれば、「標本平均は近似的に正規分布に従う」という結論が導かれます。

確率変数列の和\(S_{n}=X_{1}+\dots+X_{n}\)に対しても同様のことが言えます。標本平均を\(n\)倍するだけだからです。\(n\)が十分大きい時、近似的に次の定理が成り立ちます。

定理 (和バージョン)

\(X_{1},\dots,X_{n}\)がすべて平均\(\mu\), 分散\(\sigma^{2}\)の独立同一分布に従うとします。和\(S_{n}=X_{1}+\dots+X_{n}\)に対し、以下が近似的に成り立つ。

$$
\frac{S_{n}-n\mu}{\sqrt{n}\sigma} \sim N(0,1)
$$

  • \(n\)が十分大きいとき、独立な変数の平均(和)は正規分布で近似できる。(中心極限定理)

歪度・尖度

歪度・尖度は以下で計算される特性値です。

歪度

$$
\frac{E\left[(X-E[X])^{3}\right]}{(\sqrt{V[X]})^{3}}
$$

尖度

$$
\frac{E\left[(X-E[X])^{4}\right]}{(\sqrt{V[X]})^{4}}
$$

\(X\sim N(\mu,\sigma^{2})\)に対し、歪度は\(0\)、尖度は\(3\)です。

歪度は分布の歪みを表す指標として使われます。分布が左右対称であれば歪度は\(0\)、山が左に寄って裾が右に長くなればなるほど歪度は大きくなり、逆に山が右に寄って裾が左に長くなっていれば小さくなります。

尖度は分布の尖り具合を表すものです。尖度は必ず\(0\)以上の値をとり、分布の山が中央で尖っていればいるほど大きな値を取ります。

正規分布は左右対称の分布なので、歪度が\(0\)であるというのは、まあ確かにそうだという感じがします。

一方で正規分布の尖度は\(3\)となっていますが、「この数字がどの程度尖っているのか」というよりも、「尖度が正規分布と比べてどうか」という文脈で使われることが多いです。なのでこの\(3\)という尖度の値はひとつの基準となっています。

そのため、\(E\left[(X-E[X])^{4}\right]/(\sqrt{V[X]})^{4}-3\)を尖度の定義とするやり方もあります。この定義の場合は正規分布の尖度が\(0\)となります。3を引かない尖度のことは英語でkurtosisといい、この3を引く尖度のことをexcess kurtosisというそうです。

仮説検定などで使われるt分布は、標本数\(n\)が十分大きいとき正規分布に近似しますが、尖度は正規分布よりも大きいことが知られています。\(n\)がだんだん大きくなるにつれて、尖度も\(3\)に近づきます。

  • 歪度は分布の歪み(偏り)、尖度は分布の尖り(裾の重さ)を表す。

再生性

正規分布には再生性があります。すなわち、\(X_{1} \sim N(\mu_{1}, \sigma_{1}^{2}), X_{2} \sim N(\mu_{2}, \sigma_{2}^{2})\)で\(X_{1},X_{2}\)が独立のとき、これらの和について以下が成り立ちます。
$$
X_{1}+X_{2} \sim N\left(\mu_{1}+\mu_{2}, \sigma_{1}^{2}+\sigma_{2}^{2}\right)
$$

「正規分布の和も正規分布に従う」ということです。正規分布以外にも、二項分布やポアソン分布、カイ二乗分布などがこの性質を持っています。

  • 正規分布の和も正規分布に従う。(再生性)

おわりに

正規分布の基本的な性質をまとめました。統計学を学ぶ上で最も大事な確率分布ですが、密度関数の式が複雑だったりして忘れやすい部分も多いと思います。忘れてしまったときにはこのページを見返してもらえれば、勉強の支えになるのではないかと思います。

最後までお読みいただきありがとうございました!

しゅがでした。ではまた!

↓こちらの記事もどうぞ!

 

コメント

タイトルとURLをコピーしました