hirohirohirohirosのブログ

地方国立大学に通う情報系学部4年

統計学入門 第五章 確率変数 まとめ

確率分布

 それが取る各値に対し,それぞれ確率が与えられている変数を確率変数という.確率変数はXのように大文字を用いる.
 確率変数の取る値が関数f(x)によって

\begin{align}
P(a\leq X \leq b) = \int ^{b}_{a}f\left( x\right) dx
\end{align}

と表される時,Xは連続型の確率分布を持っている.また,f(x)をXの確率密度関数という.確率密度関数

\begin{align}
P(x \leq X \leq x + \Delta x) \fallingdotseq f(x) \Delta x \tag{1}
\end{align}
が成り立つ( \Delta x は微少な値). 
 数学的に扱いやすい連続型の確率分布として指数分布がある. \lambda > 0として,

\begin{align}
f(x) = \begin{cases}\lambda e^{-\lambda x}(x\geq 0)\\
0 (x<0)\end{cases}
\end{align}
とすると
\begin{align}
\int _{\infty }^{\infty } f(x) dx = \int _{\infty }^{0} \lambda e^{-\lambda x}dx = 1
\end{align}
となるので確率分布の性質を満たしている.電球が偶発的に切れるまでの寿命Xなどは連続型の確率変数であり、待ち時間と言われる.待ち時間は指数分布に従う.

確率変数の期待値と分散と標準化

 確率変数は確率に従って様々な値を取るが,それらを代表する平均が期待値になる.期待値はE(X)と書き,離散型連続型それぞれに対して
\begin{align}
E(X) = \sum_{x} xf(x)\\
E(x) = \int_{\infty}^{-\infty} xf(x)dx
\end{align}
と定義する.
 例として,指数分布に従う確率変数Xに対し,期待値は
\begin{align}
E(X) &= \int_{-\infty}^{\infty} xf(x)dx\\
&= \int_{0}^{\infty} x\lambda e^{-\lambda x}dx\\
&= \lambda \int_{0}^{\infty} x(-\frac{1}{\lambda}e^{-\lambda x})' dx\\
&= \lambda\left[ x\frac{1}{\lambda} e^{-\lambda x}\right] _{0}^{\infty } + \lambda\int_{0}^{\infty} (x)'\frac{1}{\lambda} e^{-\lambda x} dx \\
&= 0 + \lambda(\left[ -\dfrac{1}{\lambda ^{2}}e^{-\lambda x}\right] _{0}^{\infty }) \\
&= \frac{1}{\lambda}
\end{align}
となる.λが小さいほど長寿命と言える.
 期待値からのばらつきを考えると分散が
\begin{align}
V(X) = E\{(X - E(X))^{2}\}
\end{align}
と定義される.
 常に期待値を1,分散を0に揃えることが出来れば確率変数の他の性質を見たり,他の確率変数と比較することが出来る.そこでZを
\begin{align}
Z = \frac{X - E(X)}{\sqrt{V(X)}}
\end{align}
と定義する.すると,
\begin{align}
E(Z) &= E(\frac{X - E(X)}{\sqrt{V(X)}}) \\
&= \frac{E(X) - E(X)}{\sqrt{V(X)}} \\
&= 0 \\
V(Z) &= V(\frac{X - E(X)}{\sqrt{V(X)}}) \\
&= \frac{V(X)}{V(X)} \\
&= 1
\end{align}
となっていることが確認出来る.ここで E(X + c) = E(X) + c, E(cX) = cE(X), V(X + c)= V(X), V(cX) = c^{2}V(X)を使った.
 この変換を確率変数を標準化と言い,Zを標準化変数という.

モーメント母関数

歪度,尖度

 期待値と分散によって確率分布の様子はある程度分かるが,位置とばらつきだけで形が決まるわけでは無い.左右への歪み具合や尖り具合も表す必要がある.
 歪みの程度と方向を表すには
\begin{align}
α_{3} = \frac{E(X - μ)^{3}}{σ^{3}}
\end{align}
を使う.これを歪度という. α_{3}>0ならば右の裾が長く,負なら左の裾が長い.絶対値が大きいほど歪んでいる.歪んでいるということはXが平均μから離れているということである.どちらに歪んでいるかもX - μ > 0かX - μ < 0かどちらが優勢か見ればよい.三次関数 y = x^{3}はxの正負を保持する.よってE(X - μ)>0ならば右の裾が長く,そうでないなら左の裾が長い.程度を客観的に知るには標準化するために σ^{3}で割る.
 また,中心部分の尖り具合について,
\begin{align}
α_{4} = \frac{E(X - μ)^{4}}{σ^{4}}
\end{align}
と定義される.正規分布 α_{4}=3であるので, α_{4}-3をXの確率分布の尖度という. α_{4}-3>0ならば正規分布より尖っており, α_{4}-3<0ならば正規分布より鈍く丸い形をしている. y=x^{4}はx=0に近いときと遠い時でyの値に激しい差がある.このような四次関数を使うと,yの値に差が小さいx=0付近で十分な確率が分布しているなら[E(X-μ)^{4}]は小さくなり,x=0より遠くにも確率が存在する,確率分布が長い裾を引いているなら[E(X-μ)^{4}]は大きくなる.

モーメント

 一般に,
\begin{align}
μ_{r} = E(X^{r})
\end{align}
をXの原点まわりのr次のモーメントといい,
\begin{align}
μ’_{r} = E(X-μ)^{r}
\end{align}

をXの期待値まわりのr次のモーメントという.

\begin{align}
α_{r} = (\frac{E(X-μ)}{σ})^{r}
\end{align}

をXのr次の標準化モーメントと言う.
 期待値,分散はモーメントの一つであり,
\begin{align}
μ_{1} = E(X), μ’_{2} = V(X)
\end{align}

である.また,
\begin{align}
μ_{0} \equiv  1, μ’_{1} \equiv 0
\end{align}
とする.前述の尖度,歪度も高次の標準化モーメントの一つである事が分かる.

モーメント母関数

 期待値,分散,尖度,歪度を指定するとそれに該当する確率分布の候補が制限される.極限を考えて,全ての次数のモーメントを指定すれば,一つの確率分布が決定される.全ての次数のモーメントを生成するモーメント母関数を
\begin{align}
M_{X}(t) = E(e^{tX})
\end{align}
と定義する.モーメント母関数を微分する.まずexを展開すると
\begin{align}
e^{x} = 1 + x + \frac{x^{2}}{2!} + \frac{x^{3}}{3!} + ...
\end{align}
となるので,xにtXを代入し
\begin{align}
e^{tX} = 1 + tX + \frac{(tX)^{2}}{2!} + \frac{(tX)^{3}}{3!} + ...
\end{align}
両辺期待値を取ると
\begin{align}
M_{X}(t) &= 1 + tE(X) + \frac{t^{2}E(X^{2})}{2!} + \frac{t^{3}E(X^{3})}{3!} + ... \\
&= 1 + μ_{1}t + (\frac{μ_{2}}{2!})t^{2} + (\frac{μ_{3}}{3!})t^{3} + ...
\end{align}
となる.これを1回微分すると
\begin{align}
M'_{X}(t) = μ_{1} + 2(\frac{μ_{2}}{2!})t + 3(\frac{μ_{2}}{2!})t^{2}t^{2} + ...
\end{align}
となり,これのtに0を代入すれば M'_{X}(0) = μ_{1}となる.同様にr回微分すれば
\begin{align}
M^{r}_{X}(0) = μ_{r}
\end{align}
となり各次数のモーメントが分かる.モーメント母関数を微分することによって,全ての次数のモーメントを生成することから,モーメント母関数は確率分布を決定すると言ってよい.すなわちモーメント母関数は事実上確率分布そのものになる.

チェビシェフの不等式

 平均と分散しか分かっていない分布についても成立する不等式としてチェビシェフの不等式がある.
 いかなる確率変数Xに対しても
\begin{align}
P(|X - μ| \geq kσ) \leq \frac{1}{k^{2}}
\end{align}
が成立する.
 チェビシェフの不等式はどんな確率変数についても成立する絶対的な式である.f(x)の式が具体的に分かっていなくても,期待値と分散さえ分かっていれば,確率の値が不等式の形で示される.
 これを証明する.Iを領域 I={x: |x-μ|\geq kσ}とおくと,
\begin{align}
σ^{2} &= \int_{-\infty}^{\infty}(x-μ)^{2}f(x) dx \\
&\geq \int_{I}(x-μ)^{2}f(x) dx \\
&\geq (kσ)^{2}\int_{I}f(x) dx \\
&= (kσ)^{2}P(|X-μ|\geq kσ) \Leftrightarrow  \\
\frac{1}{k^{2}} &\geq P(|X-μ|\geq kσ)
\end{align}
となり証明された.
 例としてE(X) = 1, V(X) = 1/3であることしか分かっていない確率変数について,0<=X<=2となる確率はどうなるか考える.μ = 1,  σ^{2} = 1/3である事から,
\begin{align}
P(0\leq X \leq 2) &= P(-1 \leq X-1 \leq 1)\\
&= P(|X-1| \leq1) \\
&= P(|X-1|\leq \sqrt{3}\frac{1}{\sqrt{3}}) \\
&= P(|X-μ|\leq \sqrt{3}σ) \geq 1-(\frac{1}{\sqrt{3}})^{2} \\
&= 2/3
\end{align}
となり求める確率は2/3以上である事が分かる.

確率変数の変換

 確率変数Xに対してlog Xなど変換した確率分布を求める必要がある.Xが10倍20倍とばらつくことが多い場合log Xを考えた方が適切である.
 Y =  \phi(X)とおく.この関数は単調増加であるとする.今区間 (x, x+\Delta x) \phi(x)によって (y, y+\Delta y)になったとする.つまり y=\phi(x), \Delta y = \phi(x+\Delta x) - \phi(x)である.ここで
\begin{align}
P(y \leq Y \leq y+\Delta y) = P(x\leq X \leq x+\Delta x)
\end{align}
が成り立つ.

 X, Yの密度関数をf(x), g(y)として,(1)を使うと g(y)\Delta y = f(x)\Delta xが成り立つ.ここから,

\begin{align}
g(y) = f(x) \frac{\Delta x}{\Delta y} \fallingdotseq f(x) \frac{dx}{dy}
\end{align}
となる.ここで y=\phi(x)逆関数 x=\psi(y)とする. \phi(x)は単調増加するので逆関数が必ず存在する.これを代入すると
\begin{align}
g(y) = f(\psi(y))\frac{d\psi(y)}{dy}
\end{align}
となる.密度関数f(x)は単位長さ \Delta xに対する確率密度であるのでXの変換Yの密度関数は,f(x)の変換だけで無く \Delta xについての変換もする必要がある.その長さの縮小率が \frac{\Delta x}{\Delta y} = \frac{dx}{dy}となって表されている.