[計量経済学] 非線形モデルと操作変数の応用例

概要

前回 [GMM] 非線形モデルでの一般化モーメント法と操作変数 - ill-identified diary の続き. 操作変数を用いる非線形モデルの例として, 2値選択の場合の手法を紹介する.
前回予告ではロジットと言ったが, プロビットの話になった.
文章量はpdf換算6頁程度.

被説明変数 (アウトカム変数) がゼロまたは1の2値しか取らないモデルを考える. このようなモデルは, 分布が正規分布と大きく異なる. それでもなお, 通常の線形回帰モデルを当てはめたものを, 線形確率モデル (LPM) という. LPMからの単純な拡張として, 2段階最小二乗法をするというのも1つの手であるが, 通常のLPM同様, 分布の両端での予測精度が悪くなるという問題がある (浅野 and 中村, 2009 など参照). 2値の被説明変数に対しては, プロビットモデルもしくはロジットモデルを用いることが多い. これらは非線形モデルである (ロジットモデルがロジスティック分布にもとづくモデルとして説明できること, 分布を正規分布に置き換えることも容易という話は, 以前書いた [計量経済学] ロジスティック回帰の2通りの表現 - ill-identified diary). このとき, 操作変数を使うにはどうすればいいだろうかということを説明する.

2値選択モデルと操作変数

2値選択モデル (以下, プロビットとロジット総称して2値選択モデルと呼ぶ.) で操作変数を適用するには, 3通りの方法が考えられる. 1つは, 前回 ([GMM] 非線形モデルでの一般化モーメント法と操作変数 - ill-identified diary ) 説明した制限情報最尤法 (LIML) の類推で, 内生変数の同時分布に対し最尤法をもちいる方法である. 2つめは, 誘導形からのアプローチにより導かれる two-step procedure である. 3つ目が, control function approach (以降 CFアプローチ) と呼ばれる方法で, 直感的な表現をするなら, 誤差項から内生変数と相関する部分を分離し推定する, という方法である. 後の2者は, いずれも誘導形からのアプローチを発展させた方法である. 以下, Wooldridge (2010) の Chapter 15 Binary Response Model を参考に説明する. また, ロジットモデルについては, 潜在変数モデルとしての解釈を知っていることを前提に説明しているので, 知らない場合は [計量経済学] ロジスティック回帰の2通りの表現 - ill-identified diary を参考に.

内生変数のある潜在変数モデル

内生変数のある潜在変数モデルとして, 次のようなモデルを想定する. 主に関心があり, 推定したい潜在変数 $y_{i}^{\ast}$ のモデルは

$\begin{align} y_{i}^{\ast}= & \boldsymbol{z}_{1i}^{\prime}\boldsymbol{\gamma}+\boldsymbol{y}_{2i}^{\prime}\boldsymbol{\theta}+\varepsilon_{i}\tag{1}\label{eq:latentvar}\end{align}$

で, $\boldsymbol{z}_{1i}$ が外生変数, $\boldsymbol{y}_{2i}$ が内生変数である. 説明変数が所与の時, $\varepsilon_{i}$ は平均ゼロ, 分散 $\sigma_{\varepsilon}^{2}$ の正規分布にしたがうと仮定する (標準正規分布のほうが自然だが, 説明のため一般化している). そして, 誘導方程式

$\begin{align} \boldsymbol{y}_{2i}= & \boldsymbol{\Pi}^{\prime}\boldsymbol{z}_{i}+\boldsymbol{v}_{i}\tag{2}\label{eq:reducedform}\end{align}$

があるとする. $\boldsymbol{z}_{i}$ が操作変数ベクトルで, 識別のためのランク条件は満たしているとする. $\boldsymbol{v}_{i}$ は多変量正規分布に従う. つまり, $\boldsymbol{v}_{i}|\boldsymbol{z}_{i}\sim\mathcal{N}(\mathbf{0},\boldsymbol{\Sigma}_{v})$ である. $y_{i}^{\ast}$ が観測できるなら, 前回の LIML と全く同じであるが, 潜在変数モデルでは $y_{i}^{\ast}$ は観測不可能で, 実際に観測される被説明変数 $y_{i}$ :

$\begin{align} y_{i}= & 1[y_{i}^{\ast}\geq0]\end{align}$

のみを観測できる. つまり, $y_{i}^{\ast}\geq0$ のとき, $y_{i}=1$ が観測され, $y_{i}^{\ast}<0$ のとき, $y_{i}=0$ が観測される.

最尤法 (LIML)

まず, LIML の類推で, $(y_{1i}\, y_{2i})$ の同時密度関数を導いて最尤法を実行する方法が考えられる. 仮定より, $y_{i}^{\ast}$ は (条件付き分布が) 正規分布に従い, $y_{i}$ はその値がゼロ以上かどうかで決まるため, $(y_{i},\,\boldsymbol{y}_{2i})|\boldsymbol{z}_{i}$ の同時密度関数は,

$\begin{align} h(y_{i},\boldsymbol{y}_{2i}|\boldsymbol{z}_{i})= & f(y_{i}|\boldsymbol{y}_{2i},\boldsymbol{z}_{i})g(\boldsymbol{y}_{2i}|\boldsymbol{z}_{i})\end{align}$

と分解できる. ここで,

$\begin{align} \boldsymbol{y}_{2i}|\boldsymbol{z}_{i}\sim & \mathcal{N}(\boldsymbol{\Pi}^{\prime}\boldsymbol{z}_{i},\boldsymbol{\Sigma}_{v})\end{align}$

だから, $g(\boldsymbol{y}_{2i}|\boldsymbol{z}_{i})$ は明らかである. 一方, $f(y_{i}|\boldsymbol{y}_{2i},\boldsymbol{z}_{i})$ は, $y_{i}$ が 1またはゼロなので, $y_{i}=1$ である確率, $\mathrm{P}(y_{i}=1|\boldsymbol{z}_{i},\boldsymbol{y}_{2i})$ をまず考える. 標準正規分布の累積分布関数を $\Phi$ とすると,

$\begin{align} \mathrm{P}(y_{i}=1|\boldsymbol{z}_{i},\boldsymbol{y}_{2i}) & =\mathrm{P}(y_{i}^{\ast}\geq0|\boldsymbol{z}_{i},\boldsymbol{y}_{2i})\\ & =\mathrm{P}(\varepsilon_{i}\geq-\boldsymbol{z}_{1i}^{\prime}\boldsymbol{\gamma}-\boldsymbol{y}_{2i}^{\prime}\boldsymbol{\delta}|\boldsymbol{z}_{i},\boldsymbol{y}_{2i})\\ & =1-\Phi\left(\sigma_{\varepsilon}^{-1}(-\boldsymbol{z}_{1i}^{\prime}\boldsymbol{\gamma}-\boldsymbol{y}_{2i}^{\prime}\boldsymbol{\delta})\right)\\ & =\Phi\left(\sigma_{\varepsilon}^{-1}(\boldsymbol{z}_{1i}^{\prime}\boldsymbol{\gamma}+\boldsymbol{y}_{2i}^{\prime}\boldsymbol{\delta})\right)\end{align}$

最後の変形は, 標準正規分布の累積分布関数がゼロで対称であることによる. 同様に, $\mathrm{P}(y_{i}=0|\boldsymbol{z}_{i},\boldsymbol{y}_{2i})=1-\mathrm{P}(y_{i}=1|\boldsymbol{z}_{i},\boldsymbol{y}_{2i})$ も得られる. ここから,

$\begin{align} f(y_{i}|\boldsymbol{z}_{i},\boldsymbol{y}_{2i})= & \Phi\left(\sigma_{\varepsilon}^{-1}(\boldsymbol{z}_{1i}^{\prime}\boldsymbol{\gamma}+\boldsymbol{y}_{2i}^{\prime}\boldsymbol{\delta})\right)^{y_{i}}\left\{ 1-\Phi\left(\sigma_{\varepsilon}^{-1}(\boldsymbol{z}_{1i}^{\prime}\boldsymbol{\gamma}+\boldsymbol{y}_{2i}^{\prime}\boldsymbol{\delta})\right)\right\} ^{1-y_{i}}.\end{align}$

LIML の手法に従うなら, ここからパラメータの尤度関数を導き, 最尤法で推定する. 最尤法の原理に則しているため, この方法はバイアスと分散の観点で優位がある. しかし, 多くのパラメータを推定する必要があるため, 計算が面倒になる. つまり, 特に選択肢の多い多項ロジットや mixture model *1 になると, パラメータが非常に多くなるため, 計算が困難になる ((Train 2009), Chapter 13. Endogeneity).

2段階の方法

代替案として, 2段階最小二乗法, あるいは操作変数推定量の発想をそのまま適用した方法が考えられる. ただし, この方法ではロジスティック分布ではなく正規分布を仮定する. つまりプロビットモデルの応用である. まず (2) を最小二乗法で推定し*2 $\boldsymbol{\Pi}$ の一致推定量 $\hat{\boldsymbol{\Pi}}$ を得られたとする. すると, $\boldsymbol{y}_{2i}$ は $\hat{\boldsymbol{\Pi}}$ と回帰残差 $\boldsymbol{e}_{i}$ で

$\begin{align} \boldsymbol{y}_{2i}= & \hat{\boldsymbol{\Pi}}\boldsymbol{z}_{i}+\boldsymbol{e}_{i}\end{align}$

と表せるので, これを (1) に代入し

$\begin{align} y_{i}^{\ast}= & \boldsymbol{z}_{i}^{\prime}\boldsymbol{\gamma}+(\hat{\boldsymbol{\Pi}}^{\prime}\boldsymbol{z}_{i}+\boldsymbol{e}_{i})^{\prime}\boldsymbol{\theta}+\varepsilon_{i}\\ = & \boldsymbol{z}_{1i}^{\prime}\boldsymbol{\gamma}+\boldsymbol{z}_{i}^{\prime}\hat{\boldsymbol{\Pi}}\boldsymbol{\theta}+(\boldsymbol{e}_{i}^{\prime}\boldsymbol{\theta}+\varepsilon_{i})\end{align}$

となる. ここで式を少し整理する. $\boldsymbol{z}_{1i}$ は $\boldsymbol{z}_{i}$ の一部分なので, ゼロと1による適切な行列を用いて $\boldsymbol{z}_{1i}=\boldsymbol{\Gamma}\boldsymbol{z}_{i}$ というふうに表せる ( $\boldsymbol{\Gamma}$ は操作変数 $\boldsymbol{z}_{1i}$ と $\boldsymbol{z}_{i}$ がわかっていれば一意に決まるので, 推定しなければならないパラメータではない). よって,

$\begin{align} y_{i}^{\ast}= & \boldsymbol{z}_{i}^{\prime}(\boldsymbol{\Gamma}^{\prime}\boldsymbol{\gamma}+\hat{\boldsymbol{\Pi}}\boldsymbol{\theta})+u_{i}\\ = & \boldsymbol{z}_{i}^{\prime}\begin{bmatrix}\boldsymbol{\Gamma}^{\prime} & \hat{\boldsymbol{\Pi}}\end{bmatrix}\begin{bmatrix}\boldsymbol{\gamma}\\ \boldsymbol{\theta} \end{bmatrix}+u_{i}\\ = & \hat{\boldsymbol{z}}_{i}\boldsymbol{\alpha}+u_{i}\end{align}$

と表せる ( $\hat{\boldsymbol{z}}_{i}=\boldsymbol{z}_{i}^{\prime}\begin{bmatrix}\boldsymbol{\Gamma}^{\prime} & \hat{\boldsymbol{\Pi}}\end{bmatrix}$ , $\boldsymbol{\alpha}=\begin{bmatrix}\boldsymbol{\gamma}^{\prime} & \boldsymbol{\theta}^{\prime}\end{bmatrix}^{\prime}$ , $u_{i}=\boldsymbol{e}_{i}^{\prime}\boldsymbol{\theta}+\varepsilon_{i}$ ). よって, 通常のプロビットモデルと同様の式を得られた. この方法は, Amemiya (1978) など, 離散確率変数が含まれる他のモデルでも同様に適用できる. メインの方程式と誘導形方程式の同時分布を考えているという点で, 前回紹介した LIML の一種であるとも考えられる.

CF アプローチ

2015/3/15 モデルの仮定と帰結が混同されてる (と指摘を受けて気づいた) ので記述を修正

次に, Rivers and Vuong (1988) の提案する CFアプローチについて説明する. 元の論文では two-stage conditonal maximum liklihood (2SCML) と呼んでいるが, Wooldridge (2010) や Train (2009) の CFアプローチという呼び方がより特徴を捉えているため, この呼び方を用いる. また, 元の論文ではプロビットモデルを用いていることに注意である. CFアプローチも, 誘導方程式のパラメータを推定し, 次にメインの方程式の推定をするという2段階の手順を踏む点で同じである. しかしここで, $\hat{\boldsymbol{y}}_{2i}$ で $\boldsymbol{y}_{2i}$ の代用にするのではなく, 誤差項をコントロールする新たな変数 (control function) を作り, それをあらたな説明変数として加えることで, 内生性のバイアスを打ち消す. その変数は誘導形方程式 (2) の回帰残差 $\hat{\boldsymbol{v}}_{i}$ である. $\boldsymbol{v}_{i}$ は, 誘導形方程式の誤差項なので操作変数と直交する ( $\mathrm{E}\boldsymbol{z}_{i}\boldsymbol{v}_{i}=\mathbf{0}$ ). また, $\boldsymbol{v}_{i}$ 操作変数で説明できない誤差ということになるであり, 内生変数 $\boldsymbol{y}_{2i}$ の一部なので, (1) の誤差項 $\varepsilon_{i}$ とは相関する. よって

$\begin{align} \varepsilon_{i}= & \boldsymbol{v}_{i}^{\prime}\boldsymbol{\lambda}+u_{i}\tag{3}\label{eq:resid reg}\end{align}$

とおく. $u_{i}$ はまた別の誤差項で, $\boldsymbol{v}_{i}$ とは直交すると仮定する. よって, $\mathrm{E}\boldsymbol{y}_{2i}u_{i}=\mathbf{0}$ である. これを (1) に代入すると,

$\begin{align} y_{i}^{\ast}= & \boldsymbol{z}_{1i}^{\prime}\boldsymbol{\gamma}+\boldsymbol{y}_{2i}^{\prime}\boldsymbol{\delta}+\boldsymbol{v}_{i}^{\prime}\boldsymbol{\lambda}+u_{i}\tag{4}\label{eq:with cf term}\end{align}$

となる, ここまでの前提から, 説明変数 $\boldsymbol{y}_{2i}$ は新しい誤差項 $u_{i}$ と直交せず, この式にはもはや内生変数はない.

以上のように内生変数を排除した (4) をプロビットとして推定するため, 2つの誤差項の同時分布についてこう仮定する: $\boldsymbol{z}_{i}$ が所与のとき, (条件付き) 同時分布 $(\varepsilon_{i}\,\boldsymbol{v}_{i})|\boldsymbol{z}_{i}$ が, 平均ゼロで共分散行列 $\boldsymbol{\Omega}$ をもつ多変量正規分布とする. つまり,

$\begin{align} (\varepsilon_{i}\,\boldsymbol{v}_{i})|\boldsymbol{z}_{i}\sim&\mathcal{N}(\boldsymbol{0},\boldsymbol{\Omega})\\ \boldsymbol{\Omega}:= & \begin{bmatrix}\sigma_{\varepsilon}^{2} & \boldsymbol{\Sigma}_{\varepsilon v}\\ \boldsymbol{\Sigma}_{v\varepsilon} & \boldsymbol{\Sigma}_{v} \end{bmatrix}.\end{align}$

(標準正規分布なら, $\sigma_{\varepsilon}^{2}=1$ ). $\boldsymbol{\lambda}$ は $\boldsymbol{v}_{i}$ と $\varepsilon_{i}$ の偏相関係数 (行列) になるから,

$\begin{align} \boldsymbol{\lambda}= & \boldsymbol{\Sigma}_{v}^{-1}\boldsymbol{\Sigma}_{v\varepsilon}.\end{align}$

ここから, $\boldsymbol{z}_{i}$ , $\boldsymbol{y}_{2i}$ を所与としたときの $\eta_{i}$ の (条件付き) 分散も, $\mathrm{V}(\varepsilon_{i})-\mathrm{V}(\boldsymbol{v}_{i}^{\prime}\boldsymbol{\lambda})+\mathrm{Cov}(\boldsymbol{\varepsilon}_{i},\boldsymbol{v}_{i}^{\prime}\boldsymbol{\lambda})$ となるから,

$\begin{align} \eta_{i}|\boldsymbol{z}_{i},\boldsymbol{y}_{2i}\sim & \mathcal{N}(0,\,\sigma_{\varepsilon}^{2}-\boldsymbol{\lambda}^{\prime}\boldsymbol{\Sigma}_{v}\boldsymbol{\lambda}).\end{align}$

ここで, 簡単のため, $\rho^{2}:=\boldsymbol{\lambda}^{\prime}\boldsymbol{\Sigma}_{v}\boldsymbol{\lambda}$ で表すと,

$\begin{align} \therefore y_{i}^{\ast}|\boldsymbol{z}_{i},\boldsymbol{y}_{2i},\boldsymbol{v}_{i}\sim & \mathcal{N}(\boldsymbol{z}_{i}^{\prime}\boldsymbol{\gamma}+\boldsymbol{y}_{2i}^{\prime}\boldsymbol{\delta}+\boldsymbol{v}_{i}^{\prime}\boldsymbol{\lambda},\sigma_{\varepsilon}^{2}-\rho^{2})\end{align}$

また, 誘導形方程式からも,

$\begin{align} \boldsymbol{v}_{i}|\boldsymbol{z}_{i}\sim & \mathcal{N}(\mathbf{0},\boldsymbol{\Sigma}_{v}),\\ \therefore\boldsymbol{y}_{2i}|\boldsymbol{z}_{i}\sim & \mathcal{N}(\boldsymbol{\Pi}^{\prime}\boldsymbol{z}_{i},\boldsymbol{\Sigma}_{v})\end{align}$

となるので, $(y_{i}\,\boldsymbol{y}_{2i})|\boldsymbol{z}_{i}$ は多変量正規分布となる. しかし, これをそのまま尤度関数として推定するのは骨が折れる. そもそも, そうなるのを避けるために CF を導入したのだ. ここまでの話から分かるように, $\boldsymbol{z}_{i}$ を所与とした時の $(y_{i}\,\boldsymbol{y}_{2i})$ の同時分布は, 条件付き分布 $y_{i}|\boldsymbol{z}_{i},\boldsymbol{y}_{2i}$ , $\boldsymbol{y}_{2i}|\boldsymbol{z}_{i}$ の積に分解できる. よって, 同時密度関数 $h(y_{i},\,\boldsymbol{y}_{2i}|\boldsymbol{z}_{i})$ を $y_{i}$ の条件付き密度関数 $h(y_{i}|\boldsymbol{z}_{i},\cdots)$ と $\boldsymbol{y}_{2i}$ の条件付き密度関数 $g(\boldsymbol{y}_{2i}|\boldsymbol{z}_{i})$ を用いて,

$\begin{align} h(y_{i},\boldsymbol{y}_{2i}|\cdots)= & f(y_{i}|\boldsymbol{z}_{i},\boldsymbol{y}_{2i})g(\boldsymbol{y}_{2i}|\boldsymbol{z}_{i})\end{align}$

と表せる. $y_{i}$ が $y_{i}^{\ast}|\boldsymbol{z}_{i}$ が正規分布に従う ( $\varepsilon_{i}|\boldsymbol{z}_{i}$ が正規分布するので) との関係から

$\begin{align} \mathrm{P}(y_{i}=1|\boldsymbol{z}_{i},\boldsymbol{y}_{2i})= & \mathrm{P}(y_{i}^{\ast}\geq0|\boldsymbol{z}_{i},\boldsymbol{y}_{2i})\\ = & \mathrm{P}(\eta_{i}\geq-\boldsymbol{z}_{i}^{\prime}\boldsymbol{\gamma}-\boldsymbol{y}_{2i}^{\prime}\boldsymbol{\delta}-\boldsymbol{v}_{i}^{\prime}\boldsymbol{\lambda}|\cdots)\end{align}$

となり, 標準正規分布の累積分布関数 $\Phi$ を使って,

$\begin{align} \mathrm{P}(\eta_{i}\geq0|\cdots)= & 1-\Phi\left(\frac{-\boldsymbol{z}_{i}^{\prime}\boldsymbol{\gamma}-\boldsymbol{y}_{2i}^{\prime}\boldsymbol{\delta}-\boldsymbol{v}_{i}^{\prime}\boldsymbol{\lambda}}{\sqrt{\sigma_{\varepsilon}^{2}-\rho^{2}}}\right)\end{align}$

と表せる. 累積分布関数の対称性から,

$\begin{align} \mathrm{P}(\varepsilon_{i}\geq0|\cdots) & =\Phi(x_{i}^{\ast})\end{align}$

とおく. ここで,

$\begin{align} x_{i}^{\ast}= & \frac{\boldsymbol{z}_{i}^{\prime}\boldsymbol{\gamma}+\boldsymbol{y}_{2i}^{\prime}\boldsymbol{\delta}+\boldsymbol{v}_{i}^{\prime}\boldsymbol{\lambda}}{\sqrt{\sigma_{\varepsilon}^{2}-\rho^{2}}}\end{align}$

である. 以上から, $f(y_{i}|\boldsymbol{z}_{i}\cdots)$ は

$\begin{align} f(y_{i}|\boldsymbol{z}_{i},\boldsymbol{y}_{2i})= & \Phi(x_{i}^{\ast})^{y_{i}}\left\{ \Phi(-x_{i}^{\ast})\right\} ^{1-y_{i}}.\tag{5}\label{eq:main density}\end{align}$

$\boldsymbol{y}_{2i}$ の条件付き密度関数は, $\boldsymbol{y}_{2i}|\boldsymbol{z}_{i}\sim\mathcal{N}(\boldsymbol{\Pi}^{\prime}\boldsymbol{z}_{i},\boldsymbol{\Sigma}_{v})$ なので,

$\begin{align} g(\boldsymbol{y}_{2i}|\boldsymbol{z}_{i};\boldsymbol{\Pi},\boldsymbol{\Sigma}_{v})= & 2\pi^{-L/2}|\boldsymbol{\Sigma}_{v}|^{-1/2}\exp\left(-\frac{1}{2}\boldsymbol{v}_{i}^{\prime}\boldsymbol{\Sigma}_{v}^{-1}\boldsymbol{v}_{i}\right)\nonumber \\ = & \kappa\exp\left(-\frac{1}{2}(\boldsymbol{y}_{2i}-\boldsymbol{\Pi}^{\prime}\boldsymbol{z}_{i})\boldsymbol{\Sigma}_{v}^{-1}(\boldsymbol{y}_{2i}-\boldsymbol{\Pi}^{\prime}\boldsymbol{z}_{i})\right),\tag{6}\label{eq:reduced density}\end{align}$

ただし $\kappa=2\pi^{-L/2}|\boldsymbol{\Sigma}_{v}|^{-1/2}$ .

以上の2つの密度関数から, 尤度関数を得られるので, この2つを個別に推定できる. つまり, CFアプローチもまた, 2段階の推定を行うことになる. 1段階目は, $g(\cdots)$ から $\hat{\boldsymbol{\Pi}}$ と $\hat{\boldsymbol{\Sigma}}_{v}$ を得る. 正規分布を仮定しているため, 最小二乗法でできる. そして, 2段階目で, $\boldsymbol{\Pi}$ に $\hat{\boldsymbol{\Pi}}$ を与えて( $\boldsymbol{v}_{i}=\hat{\boldsymbol{\Pi}}^{\prime}\boldsymbol{z}_{i}$ ), $f(\cdots)$ から得られた尤度関数を使って条件付き最尤法で $\boldsymbol{\gamma}$ , $\boldsymbol{\delta}$ , $\boldsymbol{\lambda}$ を推定する.

線形モデルに類推してみると, (2) を最小二乗法で推定し, $\hat{\boldsymbol{\Pi}}$ を得る. $\hat{\boldsymbol{\Pi}}$ がわかれば残差 $\hat{\boldsymbol{v}}_{i}$ を得られるので, (4) に加えて再度最小二乗法で推定する (この場合 $y_{i}^{\ast}$ は通常の, 観測可能な従属変数となる). つまり, 直感的にも誘導形方程式の推定と, メインの方程式を順に最小二乗法で推定する2段階最小二乗法とが最尤法に置き換わったものとみなせる. 前回は紹介しなかったが, 実際, CFアプローチは線形モデルでも応用できる. 本質的に2段階最小二乗法と同じCFアプローチをなぜわざわざ紹介したかというと, Wooldridge (2010) Chapter 6 Additional Single-Equation Topics で詳しく書かれている, 次のような利点がある. 仮に, 内生変数だと見立てていた $\boldsymbol{y}_{2i}$ が外生変数ならば, その一部である $\boldsymbol{v}_{i}$ は $\varepsilon_{i}$ と直交する. よって, このとき, (3) の係数 $\boldsymbol{\lambda}$ はゼロになるはずである. よって, $\boldsymbol{\lambda}=\mathbf{0}$ という帰無仮説の検定は, 「 $\boldsymbol{y}_{2i}$ が外生変数である」という帰無仮説 *3の検定でもある, ということになる. ただし, 2SLSであってもハウスマン検定で「内生性の検定」は可能である. 通常の操作変数を使った方法と CF アプローチとのもう1つの違いは, 頑健性と効率性のトレードオフである (これも (Wooldridge 2010) による). つまり, CFアプローチは, 2SLS の仮定に加え, CFの形状についての仮定も必要とする一方, 2SLS よりも精度がある

なお, Rの既存のパッケージでは, そのものずばりこの方法で推定する関数が提供されるパッケージはないようだが, Probit Models with Endogeneity | R-bloggers ではCFアプローチで推定するコードの例が提示されている.

3つの手法の比較

そのまま最尤法を適用する LIML の場合, 尤度関数が複雑になる. 2値ロジスティック回帰なら気にならないが, 選択肢の多い多項ロジット, mixuture model, などに拡張するとどんどん複雑になる. 一方で, 先に上げた2段階の推定法では, 最小二乗法と本来の最尤法 (CML) で推定ができるので計算が簡単である. 一方で, LIML でなければ, 漸近有効推定量は得られないので, 精度と計算速度はトレードオフの関係にあると言っていいだろう: サンプルサイズが十分大きい場合 (そしてそういう場合おそらく計算に時間がかかる) は, 有効性を気にせずCFアプローチで推定すればよい. 逆にサンプルサイズが小さい場合は LIML によって分散を小さくすることが求められる.

なお, ここでは全てプロビットモデルで推定を行っている. 2値ロジットの場合の推定量の性質についての研究を探したが見つけていない. のでこれ以降は個人的な予想になる. 1段階目は最小二乗法のため, 正規分布である必要があるが, 2段階目の (5) はもはや内生変数のない通常の潜在変数モデルと同じなので, $\Phi(\cdot)$ をロジスティック分布の累積分布関数 $\Lambda(\cdot)$ に置き換えて問題ないだろう. ただし, 標準的なロジスティック分布, つまり位置パラメータがゼロ, 尺度パラメータが1であるものは, 分散が1ではなく $\pi^{2}/3$ となる. そもそもロジスティック分布と標準正規分布の形状はよく似ているため, 特定化の誤りによる問題も大きくならないと思う.

参考文献

Amemiya, Takeshi. 1978. “the Estimation of a Simultaneous Equation Generalized Probit Model.” Econometrica 46 (5): 1193–1205. doi:http://dx.doi.org/10.2307/1911443.

Rivers, Douglas, and Quang H Vuong. 1988. “LIMITED INFORMATION ESTIMATORS AND EXOGENEITY.” Journal of Econometrics 39: 347–366.

Train, Kenneth. 2009. Discrete Choice Methods with Simulation. 2nd ed. New York: Cambridge University Press.