[計量経済学] ロジスティック回帰の2通りの表現

2015/3/4 対数尤度関数の式が間違っていたので修正

概要

潜在変数 (latent variable) モデルを用いた2値のロジスティック回帰 (ロジットモデル) の表現について説明する
文章量はPDF換算で3ページ程度

久保本でのロジスティック回帰

その筋では結構有名になった久保 (2012) (通称: 緑本) だが, この本ではロジスティック回帰を, 線形予測子をロジットリンク関数で変換したものとして解説している. 線形予測子を次のように定義する.

$\begin{aligned} y_{i}^{\ast}= & \alpha+\beta x_{i}+\gamma z_{i}\label{eq:linearpred}\end{aligned}$

$x_{i}$ , $z_{i}$ が説明変数で, $\alpha$ , $\beta$ , $\gamma$ がパラメータ. ここで, 原典と記号の使い方が違うのは, これ以降の話で統一するためで, それ以外の意味はない. ロジスティック関数に当てはめると,

$\begin{aligned} q_{i}= & \mathrm{logistic}(y_{i}^{\ast})\\ = & \frac{1}{1+\exp(-y_{i}^{\ast})}\end{aligned}$

となる. ロジスティック関数は, $(-\infty, \infty)$ の定義域に対してゼロ-1の値域への変換ができる. つまり, ロジスティック関数によって線型予測子を確率に変換していると言える. よって, $q_i$ は $y_i=1$ の確率を表している. そのため, $y_i$ がとる値は二項分布になる. これをもとに尤度関数を作成すると,

$\begin{aligned} \mathcal{L}= & \prod_{i}\begin{pmatrix}N_{i}\\ y_{i} \end{pmatrix}q_{i}^{y_{i}}(1-q_{i})^{N_{i}-y_{i}}\end{aligned}$

となる. ただし, 今回は2値のロジスティック回帰のため, $y_{i}$ はゼロか1しかない場合だけを考える. $N_{i}$ も1になるので, 二項分布よりも単純な, ベルヌーイ分布になるので, 尤度関数はもう少しシンプルに,

$\begin{aligned} \mathcal{L}= & \prod_{i}q_{i}^{y_{i}}(1-q_{i})^{1-y_{i}}\end{aligned}$

と書ける. よって, 対数尤度関数は

$\begin{aligned} \ln\mathcal{L}= & \sum_{i}\left\{y_{i}\ln q_{i} + (1-y_{i})\ln(1-q_{i})\right\}.\end{aligned}$

潜在変数モデルによる表現

一方で, 計量経済学においては, 2値のロジスティック回帰を説明する時, 多くの場合潜在変数モデルを用いて表現する. ロジットモデルの被説明変数 (アウトカム変数) $y_{i}$ は, 1 かゼロしか取らない離散数である. しかし, 線形予測子は必ずしも離散ではない. そこでこれを, 「実際には被説明変数は連続だが, これを観測できず, 本来の被説明変数の値をゼロか 1 のいずれか変換した変数しか観測できない」と考える. その真の被説明変数にあたるのが, 線形予測子 $y_{i}^{\ast}$ である. $y_{i}^{\ast}$ は, ゼロを境目に切り分けられ, $y_{i}$ との関係は次のように表される.

$\begin{aligned} y_{i}= & \begin{cases} 1 & \text{if }y_{i}^{\ast}+\varepsilon_{i}\geq0\\ 0 & \text{if }y_{i}^{\ast}+\varepsilon_{i}<0 \end{cases}\end{aligned}$

ここで, $\varepsilon_{i}$ は誤差項で, 標準ロジスティック分布 (位置パラメータがゼロ, 尺度パラメータが1) にしたがうとする. ロジスティック分布の累積分布関数は,

$\begin{aligned} \Lambda(x) & =\frac{\exp(x)}{1+\exp(x)}\end{aligned}$

である. 以上の設定から, $y_{i}=1$ である確率*1は,

$\begin{aligned} \mathrm{P}(y_{i}=1)= & \mathrm{P}(y_{i}^{\ast}+\varepsilon_{i}\geq0)\\ \mathrm{P}(y_{i}^{\ast}+\varepsilon_{i}\geq0)= & \mathrm{P}(\varepsilon_{i}\geq-y_{i}^{\ast})\\ = & 1-\mathrm{P}(\varepsilon_{i}\leq-y_{i}^{\ast})\\ = & 1-\frac{\exp(-y_{i}^{\ast})}{1+\exp(-y_{i}^{\ast})}\\ = & \frac{1}{1+\exp(-y_{i}^{\ast})}\\ = & q_{i}\end{aligned}$

同様に, $y_{i}=0$ である確率は,

$\begin{aligned} \mathrm{P}(y_{i}=0)= & \mathrm{P}(y_{i}^{\ast}+\varepsilon_{i}<0)\\ \mathrm{P}(y_{i}^{\ast}+\varepsilon_{i}<0)= & \mathrm{P}(\varepsilon_{i}<-y_{i}^{\ast})\\ = & \frac{\exp(-y_{i}^{\ast})}{1+\exp(-y_{i}^{\ast})}\\ = & 1-q_{i}\end{aligned}$

となり, 尤度関数は

$\begin{aligned} \mathcal{L}= & \prod_{i}q_{i}^{y_{i}}(1-q_{i})^{1-y_{i}}\end{aligned}$

となるから, 潜在変数モデルによる説明は, 久保本による2値ロジスティック回帰の尤度関数と全く等価であることが分かる. また, 確率分布を標準正規分布に変えれば, プロビットモデルとなる.

なぜ, このような表現をするのかというと, おそらく, 効用関数の概念を類推しやすいからではないか, と考える. つまり, 効用 $y_{i}^{\ast}$ が一定以上高ければ, 実際の行動 $y_{i}=1$ として現れ, 逆にその行動を取る効用 $y_{i}^{\ast}$ が小さければ, $y_{i}=0$ という行動, 言い換えるなら「行動をしない」という選択に現れる. そして, その効用を決定する要素が説明変数である. ある商品を買う ( $y_{\text{i }}=1$ ) か買わない ( $y_{i}=0$ ) を決めるのは, その商品の価格や品質, あるいは消費者の好みで決まると考えると, これらが説明変数に対応する. また, 潜在変数モデルの考え方は多項選択モデルへ拡張することもできる. ロジットモデルについて詳しくは, 浅野・中村 (2009) を, 多項選択の話は以前書いた「[離散選択] 非集計データの購買行動」 [離散選択] 非集計データの購買行動 - ill-identified diary もしくは Wooldridge (2010) を参照.