[GMM] 一般化モーメント法と操作変数

概要

今回は GMM (一般化積率法, 一般化モーメント法) について,
操作変数法との関連に重点して話す.

そもそも GMM とはなにか.

GMM と操作変数法 (2段階最小二乗法) との関係

操作変数を使った推定法のバリエーション

職場の統計推論に詳しい人に「GMM って知ってます?」と話題を振ったら「GLM?」と訊き返された. どうも GMM は経済学 (と数理ファイナンス?) 方面でしか使われないらしい. その場では GMM の簡潔な説明を披露できなかったので, ここで説明をまとめておく.

GMM の特徴として, 操作変数を使った推定方法を内包しているという点がある. よって, 2段階最小二乗法や構造方程式モデリングとも関連する手法であると言える.

また, GMMは使われてなさそうだが, 臨床研究の分野でも操作変数法が認知されているようだ. 例として,

Rで学ぶ観察データでの因果推定 from Hiroki Matsui

2011-05-20

「操作変数法」の報告事例 from Yoshitake Takebayashi

がある. しかし, 解説を見ると, 計量経済学で言う「誘導形 (reduced form)」の表現で理解されているようである. 誘導形による表現は直感的に分かりやすいが、より一般的な応用を考える場合、一般化された GMM が重要になってくる. そこで今回は, GMMの観点から操作変数法を説明する.

今回は推定理論の話なので, 数式が多く出てくる. 統計推論の基礎的な知識 (最低限, 最小二乗法の知識) と, 線型代数の基礎 (最低限逆行列の概念まで) を知ってることを前提として書く.

一般でないモーメント法

線形モデル

$\begin{align*} y_{i}= & \boldsymbol{x}_{i}^{\prime}\boldsymbol{\beta}+\varepsilon_{i}\end{align*}$

について考える. $\boldsymbol{x}_{i}^{\prime}\boldsymbol{\beta}$ は定数項を含む $K$ 個の説明変数と係数のベクトルの積を表す ( $\boldsymbol{x}_{i}^{\prime}\boldsymbol{\beta}=\beta_{1}+x_{2,i}\beta_{2}+\cdots+x_{K,i}\beta_{K}$ ). 誤差項 $\varepsilon_{i}$ は正規分布に従っている. このモデルに最小二乗法を適用して $\boldsymbol{\beta}$ を推定しても**意味がない**. なぜなら, 誤差項と説明変数の間に, $\mathrm{E}\varepsilon_{i}|\boldsymbol{x}_{i}=0$ の関係が保証されていないからである. $\mathrm{E}\varepsilon_{i}|\boldsymbol{x}_{i}=0$ からは繰り返し期待値の法則で,

$\begin{align*} \mathrm{E}\boldsymbol{x}_{i}\varepsilon_{i}= & \mathbf{0}\end{align*}$

が導かれる (これを直交条件という). つまり,
誤差項と説明変数の相関がないことが最小二乗法の前提条件になる.

しかし, 実際の分析では同時決定の問題や欠落変数などが存在するので, 必ずしもこれを実現できない. この条件を満たさないような説明変数は, 「内生変数」と呼び, 満たす変数を「外生変数」と呼ぶ*1. 内生変数が存在する場合, 内生変数に対応する操作変数が存在すれば操作変数法で解決できるのだが, 多くの操作変数の解説では, 誘導形 (reduced form) と呼ばれるモデルの観点から解説している. そこで今回は, GMM の観点から操作変数法を説明していく. $K$ 個の操作変数のベクトル $\boldsymbol{z}_{i}$ が,

$\begin{align*} \mathrm{E}\boldsymbol{z}_{i}\varepsilon_{i} & =\mathbf{0}\end{align*}$

を満たすとする. ここで, $\varepsilon_{i}=y_{i}-\boldsymbol{x}_{i}^{\prime}\boldsymbol{\beta}$ なので,

$\begin{align*} \mathrm{E}\boldsymbol{z}_{i}(y_{i}-\boldsymbol{x}_{i}^{\prime}\boldsymbol{\beta})= & \mathbf{0}\\ \mathrm{E}\boldsymbol{z}_{i}y_{i}-\mathrm{E}\boldsymbol{z}_{i}\boldsymbol{x}_{i}^{\prime}\boldsymbol{\beta}= & \mathbf{0}\end{align*}$

$\begin{align*} \mathrm{E}\boldsymbol{z}_{i}\boldsymbol{x}_{i}^{\prime}\boldsymbol{\beta}= & \mathrm{E}\boldsymbol{z}_{i}y_{i}\end{align*}$

よって, $[\boldsymbol{z}_{i}\boldsymbol{x}_{i}^{\prime}]$ が非特異行列なら, 逆行列を掛けて,

$\begin{align*} \boldsymbol{\beta}= & \left[\mathrm{E}\boldsymbol{z}_{i}\boldsymbol{x}_{i}^{\prime}\right]^{-1}\mathrm{E}\boldsymbol{z}_{i}y_{i}\end{align*}$

と表せる. これが $\boldsymbol{\beta}$ の真の値で, これを標本から推定するには, 標本平均を使って,

$\begin{align*} \boldsymbol{b}= & \left[\frac{1}{N}\sum_{i=1}^{N}\boldsymbol{z}_{i}\boldsymbol{x}_{i}^{\prime}\right]^{-1}\frac{1}{N}\sum_{i=1}^{N}\boldsymbol{z}_{i}y_{i}\end{align*}$

とする. $\sum$ を使わずにベクトルを積み上げた行列 $\mathbf{X}:=[\boldsymbol{x}_{1}\cdots\boldsymbol{x}_{N}]^{\prime}$ , $\mathbf{Z}:=[\boldsymbol{z}_{1}\cdots\boldsymbol{z}_{N}]^{\prime}$ , $\boldsymbol{y}:=[y_{1}\cdots y_{N}]^{\prime}$ で表現するなら,

$\begin{align*} \boldsymbol{b}= & \left[\mathbf{Z}^{\prime}\mathbf{X}\right]^{-1}\mathbf{Z}^{\prime}\boldsymbol{y}\end{align*}$

となる. 直交条件 $\mathrm{E}\boldsymbol{z}_{i}\varepsilon_{i}=\mathbf{0}$ より, 標本平均 $N^{-1}\sum_{i}\boldsymbol{z}_{i}\varepsilon_{i}$ はゼロに確率収束するから, この推定量も $\boldsymbol{b}$ も $\boldsymbol{\beta}$ に確率収束するため, 一致推定量である. 以上がモーメント, あるいは積率法 (method of moments) と呼ばれる推定方法である. 見て分かるように, 結果は操作変数推定量 (IVE)*2 と全く同じである.

ところで, 操作変数 $\boldsymbol{z}_{i}$ は, 直交条件を満たしているので外生変数でもある. 例えば, 内生変数が $\boldsymbol{x}_{i}$ に1つも存在しない場合, $\mathrm{E}\boldsymbol{x}_{i}\varepsilon_{i}=\mathbf{0}$ なので, $\boldsymbol{z}_{i}=\boldsymbol{x}_{i}$ に置き換えることができる. すると,

$\begin{align*} \boldsymbol{b}= & \left[\frac{1}{N}\sum_{i=1}^{N}\boldsymbol{x}_{i}\boldsymbol{x}_{i}^{\prime}\right]^{-1}\frac{1}{N}\sum_{i=1}^{N}\boldsymbol{x}_{i}y_{i}\\ = & \left[\mathbf{X}^{\prime}\mathbf{X}\right]^{-1}\mathbf{X}^{\prime}\boldsymbol{y}\end{align*}$

となり, これは通常最小二乗 (OLS) 推定量と同じになる. 逆に, 説明変数の一部だけが内生変数なら, $\boldsymbol{z}_{i}$ の中に, $\boldsymbol{x}_{i}$ の内生変数でない要素を加えても良い. むしろそうしなければ計算できない. なぜなら, $\boldsymbol{z}_{i}$ の要素は $\boldsymbol{x}_{i}$ の要素の数と一致しなければならないからである. 理論上は $\boldsymbol{x}_{i}$ と全く別の変数を $K$ 種類用意して $\boldsymbol{z}_{i}$ とすることができるが, 大量に操作変数をわざわざ見つける労力は不要である. よって, 操作変数 $\boldsymbol{z}_{i}$ に含まれるのは, 「 $\boldsymbol{x}_{i}$ に含まれる全ての外生変数 ( $L$ 個とおく)」と「 $\boldsymbol{x}_{i}$ に含まれる内生変数 ( $K-L$ 個) と同数の, モデルの外から取ってきた操作変数」の合計 $K$ 個の変数である. 操作変数は, 実際には内生変数と同じ数の操作変数をモデルの外から追加することになる.

GMM: 一般化モーメント法 (一般化積率法)

上記のモーメント法では, 内生変数の数と新たに追加される操作変数の数が一致していないと使えない. 一致していない場合, そもそも $[\boldsymbol{z}_{i}\boldsymbol{x}_{i}^{\prime}]$ が正方行列にならないので, 逆行列が存在せず, モーメント推定量は求められない. より厳密には, 正方行列であっても特異行列だと求められない, $\mathrm{E}\boldsymbol{z}_{i}\boldsymbol{x}_{i}^{\prime}$ のランクが $K$ であること (これをちょうど識別; just or exact identified されているという) が計算可能であることの必要十分条件となる*3. 例えば, 変数間に多重共線性があれば正方行列でもランクが下がるので, やはり求められなくなる.

では, 多重共線性がない状況でも, ランクが $K$ でない場合はどうすればいいのか. 結論から言うと, $K$ よりランクが小さい場合 (これを過少識別; under-identified されているという), どうやっても計算できない. 一方で, ランクが $K$ より多い場合 (過剰識別; over identified されているという), このモーメント法を一般化した一般化モーメント法 (GMM; Generalized Method of Moments) を使用することで計算が可能になる.

前提条件として, ランクが合わないものの, モーメント条件は成り立つものとする: $\boldsymbol{z}_{i}$ の要素の数は, $Q$ で, $Q\geq K$ とする. モーメント条件は

$\begin{align*} \mathrm{E}\boldsymbol{z}_{i}\varepsilon_{i}= & \mathbf{0}.\end{align*}$

である. このとき,

$\begin{align*} \mathrm{E}\boldsymbol{z}_{i}y_{i}-\mathrm{E}\boldsymbol{z}_{i}\boldsymbol{x}_{i}^{\prime}\boldsymbol{\beta}= & \mathbf{0}\end{align*}$

となるところまではモーメント法と同じである. 左辺を標本平均に置き換え, 次のような標本モーメント $\boldsymbol{h}$ を定義する.

$\begin{align*} \boldsymbol{h}(\boldsymbol{b}):= & \frac{1}{N}\sum_{i}\boldsymbol{z}_{i}(y_{i}-\boldsymbol{x}_{i}^{\prime}\boldsymbol{b})\\ = & \frac{1}{N}\mathbf{Z}^{\prime}(\boldsymbol{y}-\mathbf{X}\boldsymbol{b})\end{align*}$

これが, 「ちょうど識別されている」のならば通常のモーメント法になり, 必ずゼロということになる. しかし, 今はゼロが成り立つかわからない一般の場合である. そこで, 標本モーメント $\boldsymbol{h}(\boldsymbol{b})$ がゼロまたはゼロに非常に近い値になるようパラメータ $\boldsymbol{b}$ を決めれば, モーメント条件が成り立つパラメータを得られる, という考えが一般化モーメント法 (GMM) である. よって GMM は $\boldsymbol{h}$ の2乗を最小化する問題になるが, 実際には $\sqrt{N}$ を掛け, ウエイト行列 $\hat{\mathbf{W}}$ を挟んだ二次形式を用いる. つまり, GMM推定量は次のような式で定義できる.

$\begin{align*} \boldsymbol{b}_{\mathit{GMM}}:=\arg\min_{\boldsymbol{b}} & \left[\sqrt{N}\boldsymbol{h}(\boldsymbol{b})\right]^{\prime}\hat{\mathbf{W}}\left[\sqrt{N}\boldsymbol{h}_{i}(\boldsymbol{b})\right]\\ =\arg\min_{\boldsymbol{b}} & N\left[N^{-1}\mathbf{Z}^{\prime}(\boldsymbol{y}-\mathbf{X}\boldsymbol{b})\right]^{\prime}\hat{\mathbf{W}}\left[N^{-1}\mathbf{Z}^{\prime}(\boldsymbol{y}-\mathbf{X}\boldsymbol{b})\right].\end{align*}$

ここで, なぜ $\hat{\mathbf{W}}$ という行列を挟むかというと, 分散を減らすためである. 例えば重み付け最小二乗法 (WLS) のようなものである*4. しかし, 通常は, 分散を最小化するウエイト行列を予め知ることはできないので, 推定量を用いることになる. よってハットを付け $\hat{\mathbf{W}}$ と表している. GMM 推定量は, 以下の式で表せる

$\begin{align*} \boldsymbol{b}_{GMM} & =\left[{\bf S}_{{\bf zx}}^{\prime}\hat{{\bf W}}{\bf S}_{{\bf zx}}\right]^{-1}{\bf S}_{{\bf zx}}^{\prime}\hat{{\bf W}}\boldsymbol{s}_{{\bf zy}}^{\prime}\end{align*}$

ただし, $\mathbf{S}_{\mathbf{zx}}:=\mathbf{Z}^{\prime}\mathbf{X}$ ,
$\boldsymbol{s}_{\mathbf{zy}}:=\mathbf{Z}^{\prime}\boldsymbol{y}$
である.

通常のモーメント法と同様に, GMM はモーメント条件を前提としているので一致性を持つ. ただし, モーメントをゼロに近づけているだけなので, 本当にモーメント条件が成り立っているかを検証する必要がある. ちょうど識別されているモーメント法/操作変数推定量の場合は, 必ずモーメントがゼロなので不要だが, 過剰識別の場合のみ, この検定が必要になる. これは「過剰識別制約の検定」とか, 考案者の名前から Sargan 検定, Hansen 検定などと呼ばれる.
モーメント条件が成り立つとき, $\boldsymbol{h}_{i}(\boldsymbol{b})$ にGMM推定量を代入した $\boldsymbol{h}_{i}(\boldsymbol{b}_{\mathit{GMM}})$ が漸近的に正規分布することから, GMM推定量を求める最小化問題の目的関数は, 漸近的に自由度 $K-L$ のカイ二乗分布に従う.

$\begin{align*} \boldsymbol{h}_{i}(\boldsymbol{b}_{\mathit{GMM}})^{\prime}\hat{\mathbf{W}}\boldsymbol{h}_{i}(\boldsymbol{b}_{\mathit{GMM}}) & \underrightarrow{d}\chi^{2}(K-L)\end{align*}$

帰無仮説であるモーメント条件が成り立つなら, この統計量がゼロに近い値になるはずである. よって, 帰無仮説が棄却される場合, モーメント条件が成り立たず, 操作変数のうちのいくつか, もしくは全てが, 操作変数としての条件を満たしていないものになっている可能性がある.

ウエイト行列の選び方

ウエイト行列を $\hat{\mathbf{W}}$ をどう選ぶか. 結論から言うと, 次のような $\mathbf{S}$ の逆数 $\mathbf{S}^{-1}$ の一致推定量となるものを選ぶ.

$\begin{align*} \mathbf{S}:= & \mathrm{E}\boldsymbol{h}_{i}\boldsymbol{h}_{i}^{\prime}\\ = & \mathrm{E}\boldsymbol{z}_{i}\varepsilon_{i}(\boldsymbol{z}_{i}\varepsilon_{i})^{\prime}\\ = & \mathrm{E}\varepsilon_{i}^{2}\boldsymbol{z}_{i}\boldsymbol{z}_{i}^{\prime}\end{align*}$

これの一致推定量は,

$\begin{align*} \hat{\mathbf{S}}= & \frac{1}{N}\sum\hat{\varepsilon}_{i}^{2}\boldsymbol{z}_{i}\boldsymbol{z}_{i}^{\prime}\end{align*}$

で, $\hat{\varepsilon}_{i}$ は $\hat{\varepsilon}_{i}:=y_{i}-\boldsymbol{x}_{i}^{\prime}\boldsymbol{b}$ , つまり回帰残差である. ただし, $\hat{\mathbf{S}}$ が $\mathbf{S}$ の一致推定量となるには, $\mathrm{E}(\boldsymbol{z}_{i}^{\prime}\boldsymbol{x}_{i})^{2}$ が有限な値であるという条件が必要である (4次モーメント条件). なぜそうなるかは, 式が長くなるので Hayashi (2000) の Chapter 4 など他の文献参照.

$\hat{\mathbf{W}}$ に含まれる $\hat{\varepsilon}_{i}$ は, 残差のため, GMM推定をする前には未知である. そこで, 2回GMM推定を行うことで $\hat{\mathbf{W}}$ を用いたGMM推定量を求める. 具体的には, 第1段階で $\hat{\mathbf{W}}$ に適当な行列*5を与えてGMM推定を行う. この結果から, $\mathbf{W}$ の一致推定量 $\hat{\mathbf{S}}^{-1}$ を得られる. そこで, 2回めは, $\hat{\mathbf{S}}^{-1}$ をウエイト行列に与えてGMM推定を行い, 分散の最小化されたGMM推定を行う. この推定方法は, optimal GMM, efficiency GMM two-step GMM などと呼ばれ, 通常GMM推定量というとこの方法で求めたもののことを指す.

2段階最小二乗法とGMM

さらにウエイト行列のとり方について考える. $K=Q$ かつ $\mathbf{W}$
に単位行列を与えた場合は,

$\begin{align*} \boldsymbol{b}_{\mathit{GMM}}= & \left[{\bf S}_{{\bf zx}}^{\prime}{\bf S}_{{\bf zx}}\right]^{-1}{\bf S}_{{\bf zx}}^{\prime}\boldsymbol{s}_{{\bf zy}}^{\prime}\\ = & \left[(\mathbf{Z}^{\prime}\mathbf{X})^{\prime}\mathbf{Z}^{\prime}\mathbf{X}\right]^{-1}\mathbf{X}^{\prime}\mathbf{Z}\mathbf{Z}^{\prime}\boldsymbol{y}\\ = & \left[\mathbf{Z}^{\prime}\mathbf{X}\right]^{-1}\mathbf{Z}^{\prime}\boldsymbol{y}\end{align*}$

となるので, GMM はちょうど識別されている場合の操作変数推定量も含んでいる. よって, $Q\geq K$ の等号の場合も, GMM の範囲である. そして操作変数 $\boldsymbol{z}_{i}$ と説明変数 $\boldsymbol{x}_{i}$ が同じなら, 操作変数法と通常最小二乗法が一致することも示したため, GMM はOLS も含むことになる.

最初に紹介したモーメント法は, 新たに追加した操作変数と内生変数の数が一致する, 「ちょうど識別された」場合の推定方法で, 操作変数推定量と同一であることを示した. 一方で, 操作変数法にも, 操作変数が内生変数より多い場合の2段階最小二乗法 (2SLS, TSLS) という手法がある. 2段階最小二乗法とGMMの関係についても紹介する.

two-step GMM に使われた $\hat{\mathbf{W}}$ について, 残差の2乗 $\hat{\varepsilon}_{i}^{2}$ を除いた $[N^{-1}\sum_{i}\boldsymbol{z}_{i}\boldsymbol{z}_{i}^{\prime}]^{-1}=[N^{-1}\mathbf{Z}^{\prime}\mathbf{Z}]^{-1}$ を用いる場合を考える. 残差の計算が不要なので, このウエイト行列の値はすぐに求めれる. このとき, GMM 推定量は

$\begin{align*} \boldsymbol{b}_{\mathit{GMM}}= & \left[{\bf S}_{{\bf zx}}^{\prime}\mathbf{Z}^{\prime}\mathbf{Z}{\bf S}_{{\bf zx}}\right]^{-1}{\bf S}_{{\bf zx}}^{\prime}\mathbf{Z}^{\prime}\mathbf{Z}\boldsymbol{s}_{{\bf zy}}^{\prime}\\ = & \left[\mathbf{X}^{\prime}\mathbf{P}_{\mathbf{Z}}\mathbf{X}\right]^{-1}\mathbf{X}^{\prime}\mathbf{P}_{\mathbf{Z}}\boldsymbol{y}\end{align*}$

ただし, $\mathbf{P}_{\mathbf{Z}}:=\mathbf{Z}[\mathbf{Z}^{\prime}\mathbf{Z}]^{-1}\mathbf{Z}^{\prime}$ である. このGMM推定量は2段階最小二乗法の推定量と同値である.

なお, two-step GMM では実際には1段階目でウエイト行列に $[N^{-1}\mathbf{Z}^{\prime}\mathbf{Z}]^{-1}$ を選ぶことが多い. そのため, 2段階最小二乗法のことを one-step GMM と呼ぶ場合もある. このように, 操作変数法, 2段階最小二乗法, GMM には強い関連がある. そのため, stata では `ivreg `というコマンドで2段階最小二乗法(操作変数法) と GMM の両方を選べるようになっている.

操作変数を使った推定量の特性

ここまで, GMM や操作変数法の推定量の性質について, 一致性があるとしか言ってこなかったが, それ以外の特性についても紹介する.

まず, (two-step) GMM と2段階最小二乗法についてだが, ウエイト行列のとり方の違いから分かるように, 2段階最小二乗法は分散均一を仮定し, GMM は分散不均一を仮定している. よって, 分散が均一かどうかで, GMMと2SLSのいずれがより効率的かが変わってくる (逆に言えば, GMMは分散不均一に対して頑健な2SLSとも表現できる). 一方で, GMMは実質2回分の2SLSの計算を行うため, 単純に考えて2倍の時間がかかる (もともとそこまで時間のかかる手法ではないが). また, GMM は, サンプルサイズが小さい時に誤差が大きくなることが指摘されている.

誘導形の復習

本題の前に, 操作変数法の誘導形を用いた表現について認識を確認する.
線形回帰モデル

$\begin{align*} y_{i}= & \beta_{1}+x_{2i}\beta_{2}+x_{3i}\beta_{3}+\varepsilon_{i}\end{align*}$

があり, $x_{3i}$ が内生変数だとする. 操作変数法は, 操作変数 $z_{i}$ を用い,

$\begin{align*} x_{3i}= & \gamma+x_{2i}\delta+z_{i}\eta+v_{i}\end{align*}$

という関係が成り立つ. この式を誘導形方程式という. ただし $v_{i}$ は, $\varepsilon_{i}$ とは独立した誤差項である. 最初の式の $x_{3i}$ に代入すると,

$\begin{align*} y_{i}= & \beta_{1}+x_{2i}\beta_{2}+(\gamma+x_{2i}\delta+z_{i}\eta+v_{i})\beta_{3}+\varepsilon_{i}\\ = & (\beta_{3}\gamma+\beta_{1})+x_{2i}(\beta_{2}+\delta)+z_{i}\delta\beta_{3}+(v_{i}\beta_{3}+\varepsilon_{i})\end{align*}$

となる. ここで, $\alpha_{1}=\beta_{3}\gamma+\beta_{1}$ , $\alpha_{2}=\beta_{2}+\delta$ , $\alpha_{3}=\delta\beta_{3}$ , $u_{i}=v_{i}\beta_{3}+\varepsilon_{i}$ とおくと,

$\begin{align*} y_{i}= & \alpha_{1}+x_{2i}\alpha_{2}+z_{i}\alpha_{3}+u_{i}\end{align*}$

となり, 内生変数のない線形回帰式になるため, 一致推定ができる. 実際には, $\gamma$ , $\delta$ , $\eta$ が未知のため, 先に誘導形を推定し, 予測値 $\hat{x}_{3i}=\hat{\gamma}+z_{i}\hat{\delta}$ を計算し, これを $x_{3i}$ の代わりに代入する. よって, 誘導形と最初の回帰式の2段階の最小二乗法を行うので, 2段階最小二乗法である. また, 誤差項には2つの確率変数が含まれている. 平均は足してもゼロだが, 分散が増えないということはないので, 誤差が大きくなる, ということに直感的に気づきやすい.

これが操作変数法の誘導形を用いた表現である. 変数が少ない場合, こちらのほうが直感的に分かりやすいので, 導入に向いていると言える. 蛇足だが, 数式の結果が同じでも, 計量経済学の文脈では, 誘導形とそうでないもの (構造形) の違いについては応用上の大きな違いがあるが, 今回はその沼には踏み込まない.

操作変数法のバイアス

操作変数推定量 (2段階最小二乗推定量) は一致性があるが, 不偏性はない. 2段階最小二乗推定量の場合, $\boldsymbol{y}=\mathbf{X}\boldsymbol{\beta}+\boldsymbol{\varepsilon}$ を代入し,

$\begin{align*} \boldsymbol{b}= & [\mathbf{X}^{\prime}\mathbf{P}_{\mathbf{Z}}\mathbf{X}]^{-1}\mathbf{X}^{\prime}\mathbf{P}_{\mathbf{Z}}\boldsymbol{y}\\ \boldsymbol{b}-\boldsymbol{\beta}= & [\mathbf{X}^{\prime}\mathbf{P}_{\mathbf{Z}}\mathbf{X}]^{-1}\mathbf{X}^{\prime}\mathbf{P}_{\mathbf{Z}}\boldsymbol{\varepsilon}\end{align*}$

と表せる. $\mathrm{E}\boldsymbol{z}_{i}\varepsilon_{i}=\mathbf{0}$ のため, 漸近的には右辺はゼロになる. これが一致性だが, $\mathrm{E}\boldsymbol{x}_{i}\varepsilon_{i}\neq\mathbf{0}$ なので, サンプルサイズが有限のときはゼロにならず, バイアスとして残ることになる. そこで, バイアスを減少させる研究がいくつか存在する. バイアスに内生変数と誤差項の積が含まれることが原因なので, これを取り除けばバイアスを軽減ないしゼロにできる. その方法の1つとして, Angrist and Krueger (1995) の提案した「unbiased sample-split 操作変数推定量」がある. これを誘導形の表現を用いてそれを説明する. 1段階目の回帰式 (誘導形方程式) はパラメータ行列 $\boldsymbol{\Pi}$ と誤差項 $\boldsymbol{v}$ で $\mathbf{X}=\mathbf{Z}\boldsymbol{\Pi}+\boldsymbol{v}$ と書ける. よって,

$\begin{align*} \hat{\boldsymbol{\Pi}}= & \left[\mathbf{Z}^{\prime}\mathbf{Z}\right]^{-1}\mathbf{Z}^{\prime}\mathbf{X}\end{align*}$

だから, $\hat{x}_{3,i}$ に対応する予測値 $\hat{\mathbf{X}}$ は,

$\begin{align*} \hat{\mathbf{X}}= & \mathbf{Z}\hat{\boldsymbol{\Pi}}.\end{align*}$

これを代入すれば,

$\begin{align*} \boldsymbol{b}_{\mathit{2SLS}}= & \left[\hat{\mathbf{X}}^{\prime}\hat{\mathbf{X}}\right]^{-1}\hat{\mathbf{X}}^{\prime}\boldsymbol{y}\end{align*}$

$\hat{\mathbf{X}}=\mathbf{P_{Z}X}$ だから, 2段階目の最小二乗推定量が $[(\mathbf{P_{z}X})^{\prime}\mathbf{P_{z}}\mathbf{X}]^{-1}(\mathbf{P_{z}X})^{\prime}\boldsymbol{y}=[\mathbf{X}^{\prime}\mathbf{P_{Z}X}]^{-1}\mathbf{X}^{\prime}\mathbf{P_{z}}\boldsymbol{y}$ となることが分かる ( $\mathbf{P_{z}}$ はべき等行列なので $\mathbf{P}_{\mathbf{z}}^{\prime}\mathbf{P_{z}}=\mathbf{P_{z}}$ ). このように, 予測値 $\hat{\mathbf{X}}$ に $\mathbf{X}$ が含まれていることがバイアスの原因になっている. もし, 真のパラメータ $\boldsymbol{\Pi}$ が分かっているなら, $\tilde{\mathbf{X}}=\mathbf{Z}\boldsymbol{\Pi}$ を代わりに用いることでバイアスをゼロにできるが, それは通常不可能である.

そこで Angrist and Krueger (1995) では, サンプル全体を 2分割し, $W_{1}=\{\mathbf{X}_{1},\boldsymbol{y}_{1},\mathbf{Z}_{1}\}$ , $W_{2}=\{\mathbf{X}_{2},\boldsymbol{y}_{2},\mathbf{Z}_{2}\}$ とした. $W_{1}$ を使って $\mathbf{X}_{1}=\mathbf{Z}_{1}\boldsymbol{\Pi}_{1}+\boldsymbol{v}$ のパラメータを推定し, $\hat{\boldsymbol{\Pi}}_{1}$ を得る.
このパラメータを $W_{2}$ に与え, $\tilde{\mathbf{X}}_{2}=\mathbf{Z}_{2}\hat{\boldsymbol{\Pi}}_{1}$ を得る. これで2段階目の回帰を行う.

$\begin{align*} \boldsymbol{b}_{\mathit{SSIV}}= & \left[\tilde{\mathbf{X}}_{2}^{\prime}\tilde{\mathbf{X}}_{2}\right]^{-1}\tilde{\mathbf{X}}_{2}^{\prime}\boldsymbol{y}_{2}.\end{align*}$

$W_{1}$ , $W_{2}$ が独立なら, $\tilde{\mathbf{X}}_{2}$ は
2段階目の誤差項と相関しないことになる. よって, バイアスが減少するが,
これでもまだゼロにはならない.

$\begin{align*} \mathrm{E}\boldsymbol{b}_{\mathit{SSIV}}= & \mathrm{E}\left\{ \mathbf{Z}_{2}(\mathbf{Z}_{1}^{\prime}\mathbf{Z}_{1})^{-1}\mathbf{Z}_{1}\mathbf{X}_{1}\right\} ^{-1}\end{align*}$

さら $\boldsymbol{b}_{\mathit{SSIV}}$ をアレンジした

$\begin{align*} \boldsymbol{b}_{\mathit{USSIV}}= & \left[\tilde{\mathbf{X}}_{2}^{\prime}\mathbf{X}_{2}\right]^{-1}\tilde{\mathbf{X}}_{2}^{\prime}\boldsymbol{y}_{2}\end{align*}$

が不偏性を持つ推定量になる. ただし, サンプルを分割することにより分散が増大するという側面もある.

ジャックナイフ2SLS

サンプルを2分割した推定から, 自然な発展としてジャックナイフ法の応用が考えられる: 元のサンプルから, $i$ 番目のオブザベーションを除いた $N$ 個のジャックナイフサンプル $W_{(-1)},\,\cdots,W_{(-N)}$ を用いて $\hat{\mathbf{X}}$ の $i$ 番目の要素を計算する. バイアス以外の観点でのジャックナイフ2SLSの長所短所は, Hahn et al. (2001) に, Stata での利用法も含めた解説は Poi (2006) で言及されている.

次回予告

GMMは非線形モデルにも適用できるので非線形への拡張を最尤法や非線形最小二乗法と比較しながら解説したい.
具体的な応用例も紹介したいがそれぞれ記事を分割することになるかもしれない.

参考文献

Hayashi Fumio の “Econometrics” GMM を中心に解説しており,
分かりやすい反面, 誘導形の話や2段階最小二乗法に紙面を割いていない.
それらは Cameron and Trivedi (2005) の Chapter 6 や Wooldridge (2010)の
Chapter 5 などはその点も詳しく書いているので, あわせて読むと良い. その他、難波先生の講義ノートも、GMMの数式の展開が丁寧にかかれているのでお勧めである.

難波明生 (2014) 『上級計量経済学 2014 年度後期講義ノート』 http://www.an.econ.kobe-u.ac.jp/~namba/lectures.html 2020/2/3追記: 現在は公開されていない. 日本評論社から2015年に出ている『計量経済学講義』が以前立ち読みしたところだいたい同じ内容だったので変わりにそちらを参照して欲しい.
Angrist, Joshua D and Alan B Krueger (1995) “Split-Sample Instrumental Variables Estimates of the Return to Schooling,”Journal of Business & Economic Statistics, Vol. 13, No. 2, pp. 225–235.
Cameron, A. C., & Trivedi, P. K. (2005). Microeconometrics: Methods and Applications: Cambridge University Press.