ご案内 > Kerasで深層学習 > 学習の種類と損失関数

学習の種類と損失関数

学習の種類と損失関数(誤差関数)

以下の説明で使う変数一覧

$K$: 出力素子数
$N$: 訓練データのサンプル数
$(\boldsymbol{x}_n,\boldsymbol{d}_n)$ : 訓練データ
$\boldsymbol{d}_n=(d_{n1},\ldots,d_{nK})$ 訓練データの入力 $\boldsymbol{x}_n$ に対する望ましい出力
$\boldsymbol{y}(\boldsymbol{x_n};\boldsymbol{w})=\boldsymbol{y}_n=(y_{n1},\ldots,y_{nK})$: 入力$\boldsymbol{x}_n$に対するネットワークの出力

目的: 滑らかな関数($\boldsymbol{y}=\boldsymbol{f}(\boldsymbol{x})$)を学習

損失(誤差)関数: 平均二乗誤差 (Kerasでの名称: mean_squared_error,mse)が一般的

$$ E(\boldsymbol{w})=\frac{1}{2}\sum_{n=1}^N ||\boldsymbol{d}_n-\boldsymbol{y}_n||^2 $$

目的: 入力をKクラス($K\ge 3$)に分類する。(K=2の場合は後述)

方法:

出力層の素子数$K$は分類したいクラス数と同じにし，訓練データが第$k$クラスのときその教師データは $[0,\ldots,0,1,0\ldots,0]$，と$k$番目の要素のみを1とする。
ニューラルネットワークモデルの出力$\boldsymbol{y}$の各要素は，各クラスの出現(推定)確率に対応付ける。
出力素子からの各出力は0から1の範囲とし，総和は1になるようにsoftmax法等で正規化する

損失(誤差)関数

クロスエントロピー (交差エントロピー, Kerasでの名称は　categorical_crossentropy)が一般的

$N$個の訓練データに対する対数尤度$L(\boldsymbol{w})=\log P(data|model)$は次式になる。

これを$N$で割って符号を反転したものがクロスエントロピーになる。

$d_{k}=1$なる訓練データに対してのみ($N=1$)，上式を計算すると$-\log y_k$になる。

目的: 入力を2クラスに分類する

方法 : 1出力とし，その出力$y\in[0,1]$の値が$1/2$より大きいか否かでクラス判定をする。

誤差関数 : 二値交差エントロピー (Kerasでの名称:binary_crossentropy, logloss)を使うことが多い。考え方は多クラス分類と同じだが，出力$y$と$1-y$がそれぞれクラス1,2に属する確率を表すことを使って変形すると以下になる。

$$ E(\boldsymbol{w})=-\sum_n^N(d_n\log y_n+(1-d_n)\log(1-y_n)) $$

Kerasでは，学習において最小化したい関数をloss function，学習とは無関係にモデルの性能評価のために用意する関数をmetricと呼び，日本語マニュアルでは前者を誤差関数，後者を評価関数と訳している。