2次識別関数と線形識別関数
第4章前半で誤り率最小基準のベイズの識別境界は
\begin{align}
f_{ij}(\boldsymbol{x}) = \boldsymbol{x}^T\boldsymbol{S}\boldsymbol{x} + 2\boldsymbol{c}^T\boldsymbol{x} + F = 0
\end{align}
となることを述べた.これは2次曲面となることから,これを2次識別関数という.
2クラスの共分散行列が等しい,つまり
\begin{align}
\sum_i = \sum_j = \sum
\end{align}
が成り立っている場合,となるため,識別境界は
\begin{align}
f_{ij}(\boldsymbol{x}) = 2\boldsymbol{c}^T\boldsymbol{x} + F = 0
\end{align}
と線形識別関数となる.
さらに,のように,二つのクラスの共分散行列が等しく,同じ等方性分散を持っており,かつクラスの事前確率が等しい
が成り立つという制約を追加すると,
\begin{align}
f_{ij}(\boldsymbol{x}) &= 2\boldsymbol{c}^T\boldsymbol{x} + F \\
&= 2(\boldsymbol{\mu}_j^T\sum_j^{-1} - \boldsymbol{\mu}_i^T\sum_i^{-1})\boldsymbol{x} + \boldsymbol{\mu}_i^T\sum_i^{-1}\boldsymbol{\mu}_i - \boldsymbol{\mu}_j^T\sum_j^{-1}\boldsymbol{\mu}_j \\
&+ \log |\frac{\sum_i}{\sum_j}| - 2\log \frac{P(C_i)}{P(C_j)} \\
&= 2(\boldsymbol{\mu}_j^T\sum^{-1} - \boldsymbol{\mu}_i^T\sum^{-1})\boldsymbol{x} + \boldsymbol{\mu}_i^T\sum^{-1}\boldsymbol{\mu}_i - \boldsymbol{\mu}_j^T\sum^{-1}\boldsymbol{\mu}_j \\
&+ \log |\frac{\sum}{\sum}| - 2\log \frac{P(C_i)}{P(C_j)} \\
&= 2σ^{-1}(\boldsymbol{\mu}_j^T - \boldsymbol{\mu}_i^T)\boldsymbol{x} + σ^{-1}(\boldsymbol{\mu}_i^T\boldsymbol{\mu}_i - \boldsymbol{\mu}_j^T\boldsymbol{\mu}_j) = 0
\end{align}
となる.さらに,最後の式を変形すると,
\begin{align}
2σ^{-1}(\boldsymbol{\mu}_j^T - \boldsymbol{\mu}_i^T)\boldsymbol{x} + σ^{-1}(\boldsymbol{\mu}_i^T\boldsymbol{\mu}_i - \boldsymbol{\mu}_j^T\boldsymbol{\mu}_j) &= 0 \\
2(\boldsymbol{\mu}_j^T - \boldsymbol{\mu}_i^T)\boldsymbol{x} + \boldsymbol{\mu}_i^T\boldsymbol{\mu}_i - \boldsymbol{\mu}_j^T\boldsymbol{\mu}_j &= 0 \\
(\boldsymbol{x} - \boldsymbol{\mu}_i)^T(\boldsymbol{x} - \boldsymbol{\mu}_i) - (\boldsymbol{x} - \boldsymbol{\mu}_j)^T(\boldsymbol{x} - \boldsymbol{\mu}_j) &= 0 \\
(\boldsymbol{x} - \boldsymbol{\mu}_i)^T(\boldsymbol{x} - \boldsymbol{\mu}_i) &= (\boldsymbol{x} - \boldsymbol{\mu}_j)^T(\boldsymbol{x} - \boldsymbol{\mu}_j)
\end{align}
が成り立つ.これは,入力ベクトルと二つの平均ベクトルとのユークリッド距離が小さな方のクラスに識別される.
本書実行例4.4の例は上記の内容の具体例となっており,理解に大変役立つ.
確率モデルパラメータの最尤推定
真の分布パラメータθを持つ確率モデルf(x|θ)で表す.N個のデータの同時確率分布は,
\begin{align}
f(\boldsymbol{x}_1, ..., \boldsymbol{x}_N|\boldsymbol{θ}) = \Pi f(\boldsymbol{x}_i|\boldsymbol{θ})
\end{align}
と書ける.ここで,
\begin{align}
L(\boldsymbol{θ}) = f(\boldsymbol{x}_1, ..., \boldsymbol{x}_N|\boldsymbol{θ})
\end{align}
と表す.この確率モデルのパラメータを求める方法に,尤度を最大にするパラメータを見つけることがある.起こった事象はもっとも起こる確率の高い事象がによって起こされたと言えるためである.
これは最尤推定法と呼ばれる.最尤推定法では尤度関数L(θ)をパラメータで微分し,0とおいて解くことで求められる.確率分布関数は対数を取った方が微分しやすいため,尤度関数の対数を取った対数尤度関数が良く用いられる.
\begin{align}
L(\mu, σ^2) &= f(x_1, ..., x_N|\mu, σ^2) = \Pi \frac{1}{\sqrt{2\pi}σ}\exp(\frac{(x_i - \mu)^2}{2σ^2}) \\
&= (2\piσ^2)^{-\frac{N}{2}}\exp(-\frac{1}{2σ^2}\sum (x_i - \mu)^2) \\
\log L(\mu, σ^2) &= \frac{N}{2}\log (2\pi) -\frac{N}{2}\log σ^2 -\frac{1}{2σ^2}\sum (x_i - \mu)^2
\end{align}
\begin{align}
\frac{\partial \log L(\mu, σ^2)}{\partial \mu} = \frac{1}{σ^2}\sum(x_i - \mu) &= 0 \\
\widehat \mu &= \frac{1}{N}\sum x_i
\end{align}