『ベイズ統計の理論と方法』の行間を読む I

概要

渡辺澄夫の『ベイズ統計の理論と方法』 (以下, 渡辺本) は, 私のように統計学は多少知ってるものの, 統計力学を知らない人間にとっては, 「自由エネルギー」だの「分配関数」だのが何を意図して定義された統計量 (物理量?) なのかよくわからず, はじめは数式を目で追うことしかできなかった.

加えて, 渡辺本は, 実務に役に立つテクニックなどといった趣旨の本ではなく, 統計学的なモデリングや機械学習 *1の理論を統一的に説明することを目的としている. そのため, 統計モデルを抽象的に一般化してその性質を説明する一方で, 混合分布モデルとか, ニューラルネットとか具体的な手法についての言及は控えめであることも, 人によっては理解が進まない原因になっていそうである. しかし, 難解であっても, 渡辺本に書かれている内容は非常に価値がある. 例えば, 以前私が [教材] 今更だが, ベイズ統計とは何なのか. - ill-identified diary で書いた「ベイズ統計と古典統計は互いに矛盾するものではなく, ベイズ統計は古典統計を包含する」という話も, この渡辺本に由来している. そこで, 私と同じように物理学を知らない「文系」のために渡辺本の行間を埋めて, 紹介される定理が何を含意しているのかの理解を促してみようと思う. もちろん, 私の勝手な解釈なので, 著者の意図に合致している保証はない.

今回は3章までの行間を読んでいく. なので, 残念ながら渡辺先生の研究の重要なところである特異モデルに対する理論分析は範囲外である.

この記事は, 期待値とか確率密度関数とか, 統計学に関連する基本的な数学的知識を持っていることを前提としている. 特に, パラメータ $w$ で積分したり, $x\$ で積分したり (周辺化), 確率分布 $p(X)\$ を掛けて $x\$ で積分したり (期待値) 積分の仕方にいろいろなパターンがあり, 変数としてみているのが $x\$ なのか, $w\$ なのか, よく確認する必要がある. 見やすさのため, 数式の記法はなるべく渡辺本に準じる*2が, いくつか例外がある.

事後分布 $p(w\mid X^{n})$ を $p_{\mathit{post}}(w\mid X^{n})\$ と書く. $p\$ は確率分布一般を表すのに使っているので, パッと見でわかるように $p_{\mathit{post}}\$ と書くことにした.
対数 $\log$ を $\ln\$ と書く. $\ln\$ は対数のうち, 特に $\mathrm{e}\$ を底とする自然対数を表すものである. とはいえ, ゼロなど不自然な値を取らない限り, 対数の底をどのようにしようが結果に影響はない.

なお, 原稿用紙で8頁ぶんくらいある.

最も基本的なこと

あまり細かく書きすぎると渡辺本の丸写しになってしまうので, で最低限の基本的なルールだけ書いておく.

機械学習でも統計学でも*3, データがある確率分布にしたがって生成されているという状況を仮定している. 統計学では母分布とか, データ生成過程 (DGP) などと呼ばれる. これを渡辺本では $q(X)$ という確率密度関数で表している. 実際の問題は, $q(X)\$ そのものは不明だが, データ $X^{n}:=\{X_{1},\cdots,X_{n}\}\$ は, それぞれ $q(X)\$ から抽出した乱数とみなせるので, 間接的に $q(X)\$ に対応する関数を推定することになる. 推定された関数を $p(X\mid w)\$ としている. これを尤度と呼ぶ本も多いが, 渡辺本では確率モデルと呼んでいる. 機械学習における学習器 (learner) とも同義である. ベイズ統計の理論を考えるには真の分布 $q(w)\$ , 事前分布 $\varphi(w)\$ , 確率モデル $p(x\mid w)\$ の3種類の確率が最低限必要になる.

尤度比とカルバック=ライブラ距離

2章では, 汎化損失, 汎化誤差, 経験誤差など似たような名前の統計量がいろいろ出てくるので, 初見では戸惑うことだろう.

さらに, 自由エネルギーと分配関数の2つは統計力学の法則と関連付けるために出てきた話なので, 統計力学を知らない文系の我々は知ってもどうしようもない. 渡辺本の範囲では, 自由エネルギーの概念を導入すると分かる知見として特に重要なトピックは,

統計力学の概念とベイズ統計につながりがある
ベイズ統計的な推測方法と従来的な推測方法 (最尤法) は互いに孤立したものではなく, 自由エネルギーで地続きになっている

である. 自由エネルギーは理論分析のために必要ではあるが, その一方で我々の多くはデータ分析の実務上でどう役に立てるかが主な関心となるだろうから, 実用に際してのつながりを重視して説明していきたい. われわれ文系は, 自由エネルギーではなく別のルートから読解しなければならないので, 極力触れないことにする*4.

我々は, 真の分布により近い統計モデルないし学習器を作成しようとしている. そこで, 真の分布と確率モデルのズレを, 比として考える.

$\begin{equation} \frac{q(x)}{p(x\mid w)}\end{equation}$

確率モデルは尤度とも呼ばれるので, これは尤度比と呼ばれる. これが何を意味するかというと, これを $x$ の関数とみなすと, ある点 $x\$ で, 尤度比が1に近いほど真の分布と確率モデルの差異がなくなるということである. また, 分子分母ともに確率を表す関数だから, 尤度比もゼロ以上であり, 両者が一致するとき尤度比が1となるとわかる. 渡辺本では, 尤度比の対数をとった対数尤度比関数を重視して,

$\begin{align} f(x\mid w):= & \ln\frac{q(x)}{p(x\mid w)}\end{align}$

としている. $\ln1=0$ だから, 対数尤度比 $f(x\mid w)\$ は, ゼロに近いほど, 真の分布に近いということになる. しかし, 対数尤度比は $x\$ しだいで値の変わる関数なので, 異なる確率モデルの対数尤度比をそれぞれ見て, どちらが真の分布に近いか判断するのが難しい. そこで, $f(x\mid w)\$ の期待値をとることで評価する. それが, カルバック・ライブラ距離*5である. カルバック・ライブラ距離は,

$\begin{align} D(q\vert\vert p):= & \mathbb{E}_{X}\left[f(X\mid w)\right]\\ = & \mathbb{E}_{X}\left[\ln\frac{q(X)}{p(X\mid w)}\right]\\ = & \int q(x)\ln\frac{q(X)}{p(X\mid w)}dx\end{align}$

と定義される. 名前が長いので, 以降は「KL距離」と書く. KL距離は, 確率分布 $q(x)$ で $\ln\left(p(x\mid w)/q(x)\right)\$ の平均を取っているから, 期待値でもあるので,

$\begin{align} D(q\vert\vert p)= & \mathbb{E}_{X}\left[\ln\frac{q(X)}{p(X\mid w)}\right]\end{align}$

と書ける. 渡辺本では, 真の分布 $q(x)$ まわりの期待値を $\mathbb{E}_{X}[ \cdots] \$ と書いていることに注意 (つまり, $\mathbb{E}_{X}\left[g(X)\right]:=\int q(x)g(x)dx\$ ).

では, この KL距離とはなんなのか, 対数は $\ln(x/y)=\ln x-\ln y$ と変形できるから,

$\begin{align} D(q\vert\vert p)= & \int q(x)\ln q(x)dx-\int q(x)\ln p(x\mid w)dx\\ = & \mathbb{E}_{X}\left[\ln q(X)\right]-\mathbb{E}_{X}\left[\ln p(X\mid w)\right]\end{align}$

となる. 第1項は確率モデル $q(x)$ の対数の期待値で, 第2項は真の分布 $p(x\mid w)\$ の対数の期待値である. よって, KL距離は, 確率モデルと真の分布のズレの大きさを表している. $p(x\mid w)\$ と $q(x)\$ が一致すれば, 明らかにKL距離はゼロになる. また, $D(q\vert\vert p)\geq0\$ という性質があるので (証明は略), $q(X)\$ と $p(X\mid w)\$ の KL 距離 $D(q\vert\vert p)\$ は, 2つの確率がどれだけ離れているかを表し, 両者が一致するときのみ最小値ゼロをとる*6.

さらに, KL距離の性質を解き明かしていく. 右辺の2つの期待値が何を意味するか考えてみる. どちらも, 確率の対数について. $q(x)$ で平均を取っている. そこで,

$\begin{align} \eta(w_{0},w)= & -\int p(x\mid w_{0})\ln p(x\mid w)dx\end{align}$

という $\eta(\cdots)$ を考える. これはエントロピーと呼ばれる*7. 今, $q(x)=p(x\mid w_{0})\$ と仮定すれば, エントロピーは真のパラメータ $w_{0}\$ と確率モデルの $w\$ の差によって生じる量だと考えられる (この時点で, 確率モデル $p(x\mid w)\$ は適切な $w\$ をとることで真の分布 $q(x)\$ を表現できると仮定していることに注意する). 一方で, 真の分布 $q(x)\$ は形が変わらないから, 真の分布自身のエントロピー $\eta:=\eta(w_{0},w_{0})=-\int q(x)\ln q(x)dx\$ は一定である. このとき, KL距離は,

$\begin{align} D(q\vert\vert p)= & -\eta(w_{0},w)+\eta\end{align}$

とも表せる. よって, KL距離には相対エントロピーという別名がある.

$\eta$ はデータ $\{X_{i}\}\$ にも影響されない, 真の分布 $q(x)\$ 固有の定数である. つまり, どんな確率モデルにしようが, KL距離には大きさが固定された成分があり, 原理上どうしても発生するズレが, 多かれ少なかれ存在することがわかる. ここから, カルバックライブラ距離をゼロにする $p(x\mid w)\$ を求めるというよりは, とりあえず $\eta\$ は考えず, $\eta(w_{0},w)\$ の部分にどういう性質があるかを見ればよいという見通しが立つ.

平均対数損失

しかしKL距離は, $q(x)$ まわりの期待値なので, 真の分布がわからない以上, これだけでは求めることができない. KL距離を移項すると,

$\begin{align} D(q\vert\vert p)= & \mathbb{E}_{X}\left[\ln q(X)\right]-\mathbb{E}_{X}\left[\ln p(X\mid w)\right]\\ = & \eta-\mathbb{E}_{X}\left[ \ln p(X \mid w) \right] \\ - \mathbb{E}_{X}\left[ \ln p(X \mid w) \right] = & D(q\vert\vert p)-\eta \end{align}$

となり, 左辺, つまり確率モデルの対数の真の分布まわりの期待値は, エントロピーとKL距離の差で表せる. これが平均対数損失 (mean log loss)である. これを $w$ の関数として,

$\begin{align} L(w):= & -\mathbb{E}_{X}\left[\ln p(X\mid w)\right]\end{align}$

と表す (マイナス符号に注意). ここで, $q(x)=p(x\mid w_{0})$ と表せるならば第1項は KL距離なので, $w=w_{0}\$ のとき, 最小値がゼロとなる関数である. このとき, KL距離を $w\$ の関数とみなして, 平均誤差関数 $K(w)\$ と書く. KL距離とは本来, $q,p\$ の組み合わせに限らず, 2つの確率分布の距離を表すので, 以降では $D(q\vert\vert p)\$ を平均誤差関数 $K(w)\$ と呼ぶ. すると,

$\begin{align} L(w)= & K(w)-\eta\\ = & K(w)+L(w_{0})\end{align}$

と表せる. ここから, 平均対数損失は $L(w_{0})=-\eta$ という最小値をとる関数になるので, $L(w)\$ を最小化するのが $w_{0}\$ を見つける方法のように見える. また, $w=w_0$ を選んだときの $L(w_{0})\$ の大きさは, 確率モデル $p(X\mid w)\$ によって変化せず一定なので, 平均対数損失 $L(w)\$ は異なる確率モデルどうしの平均誤差関数の大きさを, 相対的に比べることができる. この性質は, 後で説明する赤池の情報量規準 (AIC) に利用される.

経験対数損失

平均対数損失は, 最小二乗法など, 何らかの損失関数を最小化する方法を指している. だが, $L(w)$ は, 知ることのできない $q(x)\$ を用いて期待値を計算しなければならない. そこで, 期待値を標本平均で代用した, 次のような経験対数損失 (empirical log loss) を考える.

$\begin{align} L_{n}(w):= & -\frac{1}{n}\sum_{i=1}^{n}\ln p(X_{i}\mid w)\end{align}$

ある条件下では, $n$ が無限大に近づくと, 経験対数損失は平均対数損失に収束することが証明できる. よって実務上は, この経験対数損失の最小化で, $w_{0}\$ を求めることになる. なお, $q\$ と $p\$ のKL距離, つまり平均誤差関数に対応する形でも経験誤差関数というものが定義できるが, 平均誤差関数と同様に, 真の分布を含むため, 実務でこれを計算することはできない. もっぱら理論上の性質を分析するために用いられる.

具体例

ここで, よく知られた従来の方法との関連を考えてみる. ガウシアン線形回帰モデルなら, 正規分布を利用した

$\begin{align} Y_{i}\sim & \mathcal{N}(a+bX_{i},\sigma^{2})\end{align}$

というモデルだから*8, 確率モデルの対数は

$\begin{align} \ln p(Y_{i}\mid a,b,\sigma)= & -\ln\sqrt{2\pi}-\ln\sigma-(2\sigma^{2})^{-1}(Y_{i}-a-bX_{i})^{2}\end{align}$

となる. この $p(Y_{i}\mid a,b,\sigma)$ の経験対数損失は,

$\begin{align} L_{n}(a,b,\sigma)= & -\frac{1}{n}\sum_{i}\ln p(Y_{i}\mid a,b,\sigma)\end{align}$

となり, 対数尤度を $n$ で除して*9符号を逆転したものである. ここから, 経験対数損失の最小化は, 対数尤度の最大化, すなわち最尤法 (最尤推測) と同じであるとわかる. 加えて, ロジスティック回帰など, 機械学習の分類問題を解く学習器でも, 最小化すべき損失関数として対数損失関数と呼ばれるものが使われる. これもまさに対数尤度の符号を正負逆にしたものなので, 平均対数損失の最小化理論が, 機械学習とも矛盾しない例が示されたと言える.

少し脱線するが, 線形回帰モデルでは, $\sigma$ をどのような正の値に固定しても, $L_{n}(a,b,\sigma)\$ を最小化する $a,b\$ の値には影響しない. よって, 回帰係数 $a,b\$ だけを求めたいなら, $\sum_{i}(Y_{i}-a-bX_{i})^{2}\$ を最小化するだけでもよい. これが最小二乗法になる. つまり, 最小二乗法は, ベイズ推測の特殊ケースである最尤推測の, さらに特殊なケースという位置づけになる.

汎化誤差と汎化損失

渡辺本ではさらに, 汎化損失 (gerenalization loss) $G_{n}$ と汎化誤差 (generalization error) $G_{n}^{(0)}\$ が次のように定義される.

$\begin{align} G_{n}:= & -\mathbb{E}_{X}\left[\ln\mathbb{E}_{w}\left[p(X\mid w)\right]\right],\\ G_{n}^{(0)}:= & -\mathbb{E}_{X}\left[\ln\mathbb{E}_{w}\left[\exp(-f(X,w))\right]\right]\\ = & \mathbb{E}_{X}\left[\ln\frac{q(X)}{\mathbb{E}_{w}\left[p(X\mid w)\right]}\right]\end{align}$

さらに, 汎化誤差と汎化損失と平均対数損失の間には,

$\begin{align} G_{n}= & G_{n}^{(0)}+L(w_{0})\end{align}$

の関係が成り立つ. 汎化誤差とは何を表しているのか. 2行目の $G_{n}^{(0)}=\mathbb{E}_{X}\left[\ln(q(x)/\mathbb{E}_{w}p(X\mid w)\right]$ は, 既に見た平均誤差関数とよく似ている. 分母が $p(X\mid w)\$ だったものが $\mathbb{E}_{w}\left[p(X\mid w)\right]\$ に変わっているが, これは何を意味しているのかというと, 渡辺本の定義では, $\mathbb{E}_{w}\$ は $w\$ まわりの期待値を意味する. ただし, $w\$ の分布は事後分布 $p_{\mathit{post}}(w\mid X^{n})\$ を用いるので,

$\begin{align} \mathbb{E}_{w}\left[p(X\mid w)\right]= & \int p_{\mathit{post}}(w\mid X^{n})p(X\mid w)dw\end{align}$

となる. これは $p^{\ast}(X)$ , $p(X\mid X^{n})\$ とも書かれ, $n\$ 個の観測値と事後分布 $p_{\mathit{post}}(\cdot)\$ で決まる, $X\$ の密度関数である. つまり, 現在わかっている情報から予測される次の $X\$ の確率分布を表している. これを予測分布という. つまり, 平均誤差関数に現れる確率モデル $p(X\mid w)\$ の部分を予測分布 $p(X\mid X^{n})\$ に置き換えたものが汎化誤差 $G_{n}^{(0)}\$ であり, 汎化損失 $G_{n}\$ は, 同様に平均対数損失に現れる $p(X\mid w)\$ を予測分布に置き換えたものである. よって, (1) 汎化誤差とは, 真の分布 $q(X)\$ と予測分布 $p(X\mid X^{n})\$ のKL距離であり, (2) $G_{n}=G_{n}^{(0)}+L(w_{0})\$ は, 既に紹介した平均対数損失と, 平均誤差関数の関係式

$\begin{align} L(w)= & K(w)-\eta\\ = & K(w)+L(w_{0})\end{align}$

と全く同じ構造であることという2点が分かる.

ではなぜ, 真の分布と確率モデルではなく, 真の分布と予測分布とのKL距離へと変更を加えたのか. この違いは何を意味するのだろうか. 実は, 最尤推測など古典的な統計モデリングでは, 両者に違いがなかったため, 区別する必要がなかったのだ. しかし, 機械学習やベイズ統計は, 罰則項や事前分布を用いて, 平均対数損失に代わり汎化損失を最小化している. これはベイズの定理を用いれば分かることである. 事後分布は, 確率モデルと事前分布に比例する( $p_{\mathit{post}}(X\mid w)\propto p(X\mid w)\varphi(w)$ ). 機械学習においても, 損失関数が尤度 (=確率モデル) の正負を逆にしたものに相当し, これに罰則項を追加するから, 事後分布は確率モデルにパラメータに関するなんらかの分布を加味したものになる. 一方で, 最尤推測は尤度の最大化により直接決定するから, 事後分布が存在せず, パラメータは1点に固定される*10. よって, 汎化誤差・汎化損失はそれぞれ平均誤差関数と平均対数損失の拡張である*11.

平均対数損失に対して経験損失が存在するように, 汎化誤差・汎化損失においても, これを推定するための統計量が存在する. それが経験誤差 $T_{n}^{(0)}$ と経験損失 $T_{n}\$ になる. つまり, 統計モデリングでも学習器でもパラメータ決定は, 経験損失の最小化問題とみなせる.

ここまで, 似たような用語が出てきたので, 改めてまとめると以下のようになる.

平均誤差関数: 真の分布とモデルの間のズレの大きさの期待値 (=KL距離)
平均対数損失: 平均誤差関数に平均対数損失の最小値 $L(w_{0})$ ( $q(X)\$ のエントロピーのマイナス) を足したもの
汎化誤差: 真の分布と予測分布の間のKL距離
汎化損失: 汎化誤差に $L(w_{0})$ を足したもの
経験 XX: 上記の汎化 XX や平均 XX を標本平均で推定したもの

ここから, 誤差 (error) と損失 (loss) の意味を区別して命名されているのが分かる. とはいえ, 古典的統計学・ベイズ統計学・機械学習はそれぞれ独自に発展してきたという背景もあり, 多層ニューラルネットの誤差逆伝播法は, 損失関数で評価してるのに「誤差」という語を使っているなど, 必ずしも厳密に統一されているわけでない.

情報量規準と汎化誤差

実用上は, 真の分布 $q(X)$ が不明であり, サンプル $X^{n}\$ のみが与えられている状況でパラメータ $w_{0}\$ を求めなけらばならない. そのような場合には, 汎化損失の代理となる経験損失を最小化するだけでいいということがわかった. しかし, だからといって, 理論上の汎化誤差を無視していいというわけではない.

経験損失を最小化する $w$ と, 汎化損失を最小化する $w_{0}\$ が一致するのは, サンプルサイズ $n\$ が $\infty\$ となったときであり, 実用のためには $n\$ が有限の場合も考えるべきであろう. このとき, 両者の間には差 (バイアス) が発生することがわかっている. この差は経験過程と呼ばれる, 平均誤差関数を用いて定義される確率で表される. このバイアスがいわゆる過剰適合とか過学習とか呼ばれる現象をもたらす. よって, 経験過程の大きさを考慮して, 汎化損失を求める必要がある.

有名な赤池の情報量規準 (AIC) やベイジアン情報量規準 (BIC) といった情報量規準は, このように, サンプルサイズが有限な場合*12に, 経験損失で代用したときに発生するバイアスを補正する方法だと考えれられる. AIC は汎化損失の近似で, 汎化損失は平均誤差関数と, 定数項とみなせるエントロピーのマイナス $-\eta$ の和だから, モデルをAICで比較することは, 汎化誤差を間接的に推定しているのと同じと言える. 汎化誤差は真の分布と予測分布のKL距離だから, AIC が小さいということは, より良い予測分布を作成できるモデルということになる.

AIC と並んで BIC も多くの教科書で紹介されているが, 両者は式の定義が異なる. 良いモデルを選ぶのに, なぜ異なる指標が存在するのか. 渡辺本ではこれも説明されているが, 解説のためにはいよいよ自由エネルギーに言及しなくてはならない. 自由エネルギー $F_{n}(\beta)$ は,

$\begin{align} F_{n}(\beta):= & -\frac{1}{\beta}\ln Z_{n}(\beta)\end{align}$

で表される. $Z_{n}(\beta)$ は, 分配関数と呼ばれる量である. 統計力学では, $\beta\$ 温度の逆数を意味するため, 逆温度パラメータと呼ばれ, 様々な値をとるが, ベイズ統計では $\beta=\infty\$ か $\beta=1\$ の場合だけを考えることが多い. これは, この値において, それぞれ最尤推測とベイズ推測に関連付けられるためである. $\beta=1\$ のとき, 自由エネルギーは分配関数の対数かける $-1\$ であり, 分配関数は周辺尤度 $Z_{n}(1)=\int\varphi(w)\prod_{i}p(X_{i}\mid w)dw\$ に等しい. 周辺尤度は, 確率モデルを $w\$ について積分消去した関数であり, ベイズの定理の分母にあたる. 渡辺本では, BIC が自由エネルギーの近似であり, $n\to\infty\$ で自由エネルギーに収束することを示している. よって, 逆に言えば, BIC から間接的に周辺尤度を知ることができる.

対数周辺尤度を近似するBICがなぜモデル選択に使えるのか, 渡辺本では具体的に説明していないが, 日本語文献ならば, 小西 & 北川 (2004, 情報量規準) によれば, 対数周辺尤度でモデルの正しさの事後確率の相対的な大きさが表せることから, 対数周辺尤度のマイナスの近似として BIC が導出されると順を追って説明している. よって, BIC が小さいほど周辺尤度が大きく, 正しいモデルである確率が高いということになる.

AIC と BIC の式が異なるのはこのように導出過程が異なるからであり, 「ベイズ統計モデルだから BIC を使うべき」といった主張は根拠のない俗説であるとわかる.

そして, それぞれ異なる統計量の近似であるため, サンプルサイズ $n$ が有限でも無限大でも, AIC と BIC が一致するとは限らない. AIC と BIC の細かい性質の違いや, 実用上どう使い分けるべきかのヒントは, 渡辺本の本文でも述べられているので省略する.

4章以降

以上の話は, 正則な条件が成り立つ場合のみであり, まだ学習理論の問題のすべてのケースをカバーできてない. 具体的には, サンプルサイズが十分でない, パラメータ $w_{0}$ が一意に定まらない, などの状況では, ここまでの理論の前提が崩れる. このとき, 最尤推測が最適な $w_{0}\$ を導く保証はなく, AIC や BIC がそれぞれ汎化損失や周辺尤度のよい推定量になっているという前提条件が崩れてしまい, 意味をなさなくなる. $q(X)\$ が未知であるからこそ推測するという統計学の問題が発生するので, 事前・事後的のいずれでも正則な条件を満たしているかを知ることはできない. よって, 特異なモデルにも対処できるように理論を拡張する必要が出てくる. 渡辺本では既に, 特異モデルの範囲でも AIC, と同等の性質を維持する情報量規準である WAIC を説明している. が, そのためには多様体その他のより発展的な数学の知識を要する. 自分はまだ, 話を噛み砕いてエッセンスだけを抽出し説明できるほど理解しているとは言えないので, この続きを書くとしたら, だいぶ後になるだろう.