[GMM] 非線形モデルでの一般化モーメント法と操作変数

概要

[GMM] 一般化モーメント法と操作変数 - ill-identified diary の続き.
非線形モデルに対して操作変数法*1, あるいは GMM を適用するのかということについて
最尤法との比較
具体的な応用例はまた別の記事に

前回予告したように, 非線形モデルに対して GMM を適用する場合の話をする. 非線形一般の場合を前提に, 非線形モデルのパラメータ推定として, 古典的で普及してる最尤法とどう違うのか, についても書いておく.

非線形GMM

非線形モデルのため, モデルを説明変数ベクトル $\boldsymbol{x}_{i}$ , $\boldsymbol{\theta}$ と関数 $f$ を用いて,

$\begin{aligned} y_{i}= & f(\boldsymbol{x}_{i},\boldsymbol{\theta})+\varepsilon_{i}\end{aligned}$

と表す. 非線形モデルのパラメータ推定方法には, 非線形最小二乗法 (NLS) や最尤法 (ML) があるが, これらは誤差項と説明変数が相関している場合, 一致性をもたない. Amemiya (1974, The Nonlinear Two-Stage Least-Squares Estimetor) では, 非線形最小二乗法で操作変数 (IV) を用いて, このような場合でも一致推定量を得るための方法が提案されているが, 実際のところこれは非線形GMMに一般化できるので, まずは非線形GMMから話を始める.

非線形のモーメント条件

と表す. ここで, 線形モデルの場合の GMM のモーメント条件を再度書くと,

$\begin{aligned} \mathrm{E}\boldsymbol{z}_{i}\varepsilon_{i}= & \mathbf{0}\\ \mathrm{E}\boldsymbol{z}_{i}(y_{i}-\boldsymbol{x}_{i}^{\prime}\boldsymbol{\beta})= & \mathbf{0}\end{aligned}$

だった. 線形モデル $y_{i}=\boldsymbol{x}_{i}^{\prime}\boldsymbol{\beta}+\varepsilon_{i}$ を代入したが, 今回は非線形モデルとなる. しかし, 操作変数 $\boldsymbol{z}_{i}$ が誤差項 $\varepsilon_{i}$ と直交しているという条件は, 前回から変わらない. よって,

$\begin{aligned} \mathrm{E}\boldsymbol{z}_{i}(y_{i}-f(\boldsymbol{x}_{i},\boldsymbol{\theta}))= & \boldsymbol{0}.\end{aligned}$

よって, モーメントは $\boldsymbol{g}_{i}(\boldsymbol{x}_{i},\boldsymbol{z}_{i},y_{i},\boldsymbol{\theta}):=\boldsymbol{z}_{i}(y_{i}-f(\boldsymbol{x}_{i},\boldsymbol{\theta}))$ となる. そのため, 非線形の場合でも, モーメントの「距離最小化問題」として記述できる.

$\begin{aligned} \hat{\boldsymbol{\theta}} & :=\arg\min_{\boldsymbol{\theta}}Q_{N}(\boldsymbol{\theta})\\ Q_{N}(\boldsymbol{\theta}) & =N\boldsymbol{g}_{n}(\boldsymbol{w}_{i},\boldsymbol{\theta})^{\prime}\hat{\mathbf{W}}\boldsymbol{g}_{n}(\boldsymbol{w}_{i},\boldsymbol{\theta}).\end{aligned}$

ここで, $\boldsymbol{g}_{n}$ は標本モーメント $\boldsymbol{g}_{n}(\boldsymbol{w}_{i},\boldsymbol{\theta})=N^{-1}\sum_{i}\boldsymbol{g}_{i}(\boldsymbol{x}_{i},\boldsymbol{z}_{i},y_{i},\boldsymbol{\theta})$ で, $\boldsymbol{w}_{i}:=(\boldsymbol{x}_{i},y_{i},\boldsymbol{z}_{i})$ である.

非線形モデルの場合は, $f$ の形状をいろいろ想定できるので, 線形の場合と異なり $\mathbf{Z}$ , $\mathbf{X}$ , $\boldsymbol{y}$ だけで明示的に $\hat{\boldsymbol{\theta}}$ の解を表すことはできない.

過剰識別制約の検定 (Sargan/Hansen 検定) も, モーメント条件が成り立つ時に, $\hat{\boldsymbol{\theta}}$ を与えた時に目的関数が漸近的にカイ二乗分布に従うことを利用したものなので, 引き続き利用できる.

非線形最小二乗法と非線形2段階最小二乗法

非線形GMMにおいても, 線形の場合と同様に, $\hat{\mathbf{W}}=\hat{\mathbf{S}}^{-1}$ として, two-step GMM推定量を求めることになる. そして, $\hat{\mathbf{W}}$ を単位行列とおいて, ちょうど識別されているなら操作変数推定量の非線形版に, 加えて操作変数と説明変数が一致しているなら, 非線形最小二乗法と一致する.

さらに, 線形の場合と同様に, 非線形操作変数推定量, 非線形2段階最小二乗法も得られる. 非線形操作変数推定量, つまりちょうど識別され, かつウエイト行列が単位行列の場合, 目的関数 $Q_{N}(\boldsymbol{\theta})$ は

$\begin{aligned} Q_{N}(\boldsymbol{\theta}) & =N\boldsymbol{g}_{n}(\boldsymbol{w}_{i},\boldsymbol{\theta})^{\prime}\boldsymbol{g}_{n}(\boldsymbol{w}_{i},\boldsymbol{\theta})\\ & =N(N^{-1}\sum_{i}\boldsymbol{z}_{i}\varepsilon_{i})^{\prime}(N^{-1}\sum_{i}\boldsymbol{z}_{i}\varepsilon_{i})\\ & =N^{-1}\boldsymbol{\varepsilon}^{\prime}\mathbf{Z}\mathbf{Z}^{\prime}\boldsymbol{\varepsilon}\end{aligned}$

となり, 2段階最小二乗法の場合は, 線形の場合と同様, $\hat{\mathbf{W}}=(\mathbf{Z}^{\prime}\mathbf{Z})^{-1}$ を与えて

$\begin{aligned} Q_{N}(\boldsymbol{\theta})= & N^{-1}\boldsymbol{\varepsilon}^{\prime}\mathbf{Z}(\mathbf{Z}^{\prime}\mathbf{Z})^{-1}\mathbf{Z}^{\prime}\boldsymbol{\varepsilon}\end{aligned}$

とする. 逆に, 誘導形の表現からも考えてみる. Cameron & Trivedi (2005, Microeconometrics: Methods and Applications) を参考にすると, まず, 操作変数と説明変数の関係は線形の場合と同じで, 誘導形方程式は

$\begin{aligned} \boldsymbol{x}_{i}= & \boldsymbol{z}_{i}^{\prime}\boldsymbol{\Pi}+\boldsymbol{v}_{i}.\end{aligned}$

これを OLS で $\hat{\boldsymbol{\Pi}}$ を求め, $\hat{\boldsymbol{x}}_{i}=\boldsymbol{z}_{i}^{\prime}\hat{\boldsymbol{\Pi}}$ を回帰式の $\hat{\boldsymbol{x}}_{i}$ に代入する. この時, モデルを,

$\begin{aligned} y= & f(\boldsymbol{x}_{i}^{\prime}\boldsymbol{\theta})+\varepsilon_{i}\end{aligned}$

の形で表せるなら, $\hat{\boldsymbol{x}}_{i}$ を $\boldsymbol{x}_{i}$ の代わりに与えると,

$\begin{aligned} y_{i}= & f(\hat{\boldsymbol{x}}_{i}^{\prime}\boldsymbol{\theta})+\varepsilon_{i}\\ = & f\left( (\boldsymbol{z}_{i}^{\prime}\hat{\boldsymbol{\Pi}})^{\prime}\boldsymbol{\theta}\right)+\varepsilon_{i}\end{aligned}$

となり, $f$ から $\boldsymbol{x}_{i}$ が消える (線形の場合と同様に, $\hat{\boldsymbol{x}}_{i}$ であることに注意).

最後に, 操作変数と説明変数が同じで, かつウエイト行列が単位行列のときを考える.

$\begin{aligned} Q_{N}(\boldsymbol{\theta})= & N\boldsymbol{g}_{n}(\boldsymbol{x}_{i},\boldsymbol{\theta})^{\prime}\boldsymbol{g}_{n}(\boldsymbol{x}_{i},\boldsymbol{\theta})\\ = & N\left[N^{-1}\sum_{i}\boldsymbol{x}_{i}(y_{i}-\boldsymbol{x}_{i}^{\prime}\boldsymbol{\theta})\right]^{\prime}\left[N^{-1}\sum_{i}\boldsymbol{x}_{i}(y_{i}-\boldsymbol{x}_{i}^{\prime}\boldsymbol{\theta})\right]\\ = & N^{-1}\sum_{i}(y_{i}-\boldsymbol{x}_{i}^{\prime}\boldsymbol{\theta})^{^{2}}\\ = & N^{-1}\boldsymbol{\varepsilon}^{\prime}\mathbf{XX}^{\prime}\boldsymbol{\varepsilon}\end{aligned}\$

となるので, 解は非線形最小二乗法と同じになる.

操作変数は, $\mathrm{E}\boldsymbol{z}_{i}\varepsilon=\mathbf{0}$ が本来の定義なのだが, 誤差項と直接無相関にならず, なんらかの関数を経由して直交する $\mathrm{E}h(\boldsymbol{x}_{i})\varepsilon_{i}=\mathbf{0}$ というケースも考えられるが, 話題が分散しすぎるので, 今回は通常の操作変数の仮定の場合だけで話を進める.

最尤法, GMM, そしてM-推定量

非線形モデルのパラメータ推定といえば, 多くの分野で最尤法 (ML) が一番ポピュラーで古典的だろう. 最尤法と非線形GMMはどう違うのか. 実は, 最尤法と非線形GMMはかなり近い性質を持つ. その説明のため, M-推定量という概念について触れておく. M-推定量とは, 目的関数がなんらかの関数の標本平均で表される最小化問題 (最大化問題) から導出される推定量の分類である*2.

$\begin{aligned} \hat{\boldsymbol{\theta}} & =\arg\min_{\boldsymbol{\theta}}Q_{N}(\boldsymbol{\theta}),\\ Q_{N}(\boldsymbol{\theta}) & :=\frac{1}{N}\sum_{i}m(\boldsymbol{w}_{i},\boldsymbol{\theta})\end{aligned}$

ここで, 一意な解を得るため, $m(\boldsymbol{w}_{i},\boldsymbol{\theta})$ は, 以下の条件を満たす必要がある.

(識別条件*3 ) $\mathrm{E}m(\boldsymbol{w}_{i},\boldsymbol{\theta})$ は $\boldsymbol{\theta}$ について連続で, 真の値 $\boldsymbol{\theta}_{0}$ で唯一最小値 (最大値) を取る.
(優越条件) $\mathrm{E}\sup_{\boldsymbol{\theta}\in\Theta}\left|m(\boldsymbol{w}_{t};\boldsymbol{\theta})\right|<\infty$

最尤法は, 尤度を最大化することで表されるが, 各個体 $i$ が互いに独立ならば, 尤度関数 $l_{i}(\boldsymbol{w}_{i},\boldsymbol{\theta})$ の積で表せるので, 対数をとって和で表された対数尤度を最大化できる.

$\begin{align} Q_{N}(\boldsymbol{\theta}):= & -N^{-1}\sum_{i}\ln l_{i}(\boldsymbol{\theta}|\boldsymbol{w}_{i})\tag{1}\label{eq:ML as M-est}\end{align}$

ここで, マイナスをつけているのは先の M-推定量の定義が最小化問題になっているからである. また, $N^{-1}$ も, 本来の尤度にはないが, 明らかに $Q_{N}$ の最大値を取る $\boldsymbol{\theta}$ の決定に影響を与えない. 最大化でも最小化でも, 本質的な違いはなく, この式 (1) の解と最尤推定量 $\arg\max_{\boldsymbol{\theta}}\prod_{i}l_{i}(\boldsymbol{w}_{i},\boldsymbol{\theta})$ は同じである. 一方, GMMの目的関数もモーメントの和で表せる. そのため, いずれもM-推定量に属する. M-推定量は一般に, 一致性と漸近正規性を持ち, その漸近分散も推定可能になる (これらの厳密で詳しい条件や式は Hayashi (2000, Econometrics) の Chapter 7 Extrenum Estimators を参照). また, M-推定量はその性質から, 一階条件( $D_{\boldsymbol{\theta}}Q_{N}(\boldsymbol{\theta})=\mathbf{0}$ ) をニュートン法で解くことで得られる.

しかし, ここまでで, モデルがどのような分布に従うのかという仮定をほとんどしていない*4. 正規分布に漸近するというのは, 中心極限定理に基づく性質である. 今回の場合, 尤度関数はどう定義すればいいか, ということを先に説明しなければならない.

条件付き最尤法・擬似最尤法

まず, 尤度関数 $l_{i}(\boldsymbol{w}_{i},\boldsymbol{\theta})$ は, $\boldsymbol{w}_{i}$ の同時密度関数から導く. しかし, 同時分布の密度関数は複雑な形状になる. そこで, 同時密度関数を, $\boldsymbol{x}_{i}$ に対する $y_{i}$ の条件付き密度関数を $f_{y|x}$ , $\boldsymbol{x}_{i}$ の密度関数を $g(\boldsymbol{x}_{i};\boldsymbol{\psi})$ とおく. $\boldsymbol{\psi}$ は $\boldsymbol{x}_{i}$ の分布のパラメータである.

$\begin{aligned} f(\boldsymbol{w}_{i}=\{y_{i},\boldsymbol{x}_{i}\})= & f_{y|x}(y_{i}|\boldsymbol{x}_{i},\boldsymbol{\theta})g(\boldsymbol{x}_{i};\boldsymbol{\psi})\end{aligned}$

これを尤度関数とみなすと, 対数尤度関数は

$\begin{aligned} \ln l_{i}(\boldsymbol{\theta},\boldsymbol{\psi}|\boldsymbol{w}_{i})= & \ln f_{y|x}(y_{i}|\boldsymbol{x}_{i},\boldsymbol{\theta})+\ln g(\boldsymbol{x}_{i};\boldsymbol{\psi})\end{aligned}$

となる. よって, $\boldsymbol{x}_{i}$ の密度関数が分離するので, $\boldsymbol{\theta}$ の推定の際には, $g(\cdot)$ は不要になる. 今知りたいのは, $\boldsymbol{\theta}$ であり, $\boldsymbol{x}_{i}$ の分布のパラメータ $\boldsymbol{\psi}$ は不要である (局外母数). よって, 条件付き密度関数だけを尤度関数とみなして最尤法を適用できる. ここから得られた推定量を条件付き最尤推定量 (Conditional MLE ) という*5. CMLE は明らかに M-推定量なので, 最尤推定量と同じ性質を持つ (厳密にはこれだけの説明では不十分だが, 詳しい話は省略する).

最尤法に対して操作変数の概念を導入する前に, 内生変数についてもう一度考えてみる. 内生変数・外生変数の区別を $\mathrm{E}\boldsymbol{x}_{i}\varepsilon_{i}=\mathbf{0}$ が成り立つかどうかだけで説明してきたが, ここでより細かい定義を考える. 説明変数 $x$ の条件独立とは, 条件付き密度関数 $f_{\varepsilon|x}$ と周辺密度関数 $f_{\varepsilon}$ について,

$\begin{aligned} f_{\varepsilon|x}(\varepsilon_{i}|x)= & f_{\varepsilon}(\varepsilon)\end{aligned}$

が成り立つことを言う. つまり, ある変数を条件に与えても分布そのものも変わらない, という意味なので, 明らかにこれまでの仮定より強い仮定である. これまでは, 条件付き分布ではなく条件付き期待値の仮定 $\mathrm{E}\varepsilon_{i}|x=\mathrm{E}\varepsilon_{i}=0$ であったため, 単に平均が変わらなければよい*6. なお, この条件独立の概念は, 時系列データの分析で非常によく言及される. その場合, とくにグレンジャー (非) 因果性; Granger (non-) causality と呼ばれる. グレンジャー非因果性/因果性は, 時系列データで, $f(y_{t}|y_{t-1})=f(y_{t})$ というように, ある確率変数がその確率変数の以前の状態と因果性/非因果性が成り立つかどうか, という観点でとても頻繁に意識される.

外生性の条件としてもう1つ重要なのが, 同時分布のパラメータが「独立」かどうかである. つまり,

$\begin{aligned} f(\boldsymbol{w}_{i}=\{y_{i},\boldsymbol{x}_{i}\})= & f_{y|x}(y_{i}|\boldsymbol{x}_{i},\boldsymbol{\theta})g(\boldsymbol{x}_{i};\boldsymbol{\psi})\end{aligned}$

のように, 同時密度関数を条件付き密度関数と周辺密度関数の積に分離する時, パラメータも分割できるという前提が重要になる. これが成り立つとき, $\boldsymbol{x}_{i}$ は $\boldsymbol{\theta}$ に対し弱い外生性をもつ, という. 条件独立と弱い外生性はそれぞれ「強い外生性」の必要条件の1つである. よって, 強い外生性をもつ変数なら, 弱い外生性, 条件独立も平均独立も成り立つ.

以上から, 少なくとも弱い外生性がなければ, 条件付き最尤法が実行できない. もちろん, 同時密度関数が分かっているなら最尤法をそのまま適用できるが, 計算はかなり複雑になる. ここから, 最尤法であっても内生変数の存在は問題となる.

制限情報最尤法

以上のことを踏まえて, ここで再び誘導形方程式を思い出して欲しい. わかりやすくするため, $K$ 個の説明変数ベクトル $\boldsymbol{x}_{i}$ を, $M$ 個の外生変数 $\boldsymbol{z}_{1i}$ , $L$ 個の内生変数 $\boldsymbol{y}_{2i}$ に分割する ( $\boldsymbol{x}_{i}=(\boldsymbol{z}_{i}^{\prime}\,\boldsymbol{y}_{2i}^{\prime})^{\prime}$ ). 同様に, 対応するパラメータも, $\boldsymbol{\theta}:=(\boldsymbol{\theta}_{1},\,\boldsymbol{\theta}_{2})$ と表す. 線形モデルの場合

$\begin{align} y_{1i}= & \boldsymbol{x}_{i}^{\prime}\boldsymbol{\theta}+\varepsilon_{i}\nonumber \\ = & \boldsymbol{z}_{i}^{\prime}\boldsymbol{\theta}_{1}+\boldsymbol{y}_{2i}^{\prime}\boldsymbol{\theta}_{2}+\varepsilon_{i}.\tag{2} \label{eq:LIML main}\end{align}$

そして, $\boldsymbol{y}_{2i}$ に対応する $L$ 個の誘導方程式が必要である. $Q\geq K$ 個の操作変数ベクトル $\boldsymbol{z}_{i}$ があるとする. $\boldsymbol{z}_{1i}$ は $\boldsymbol{z}_{i}$ の一部であるので, $\boldsymbol{z}_{i}$ も, $\boldsymbol{z}_{1i}$ とそれ以外の $\boldsymbol{z}_{2i}$ に分割できる ( $\boldsymbol{z}_{i}=(\boldsymbol{z}_{1i}^{\prime}\,\boldsymbol{z}_{2i}^{\prime})^{\prime}$ ). 誘導方程式は,

$\begin{align} \boldsymbol{y}_{2i}= & \boldsymbol{\Pi}^{\prime}\boldsymbol{z}_{i}+\boldsymbol{v}_{t}\tag{3}\label{eq:LIML reduced form eq}\end{align}$

と表せる. ここで,

$\begin{aligned} \underset{(L\times 1)}{\boldsymbol{y}_{2i}}=\begin{bmatrix}y_{2i,1}\\ y_{2i,2}\\ \vdots\\ y_{2i,L} \end{bmatrix}, & \underset{(L\times1)}{\boldsymbol{v}_{t}}=\begin{bmatrix}v_{t,1}\\ v_{t,2}\\ \vdots\\ v_{t,L} \end{bmatrix},\\ \underset{(L\times Q)}{\boldsymbol{\Pi}}=\begin{bmatrix}\pi_{11} & \cdots & \pi_{1,Q}\\ \vdots & \ddots & \vdots\\ \pi_{L,1} & \ddots & \pi_{L,Q} \end{bmatrix}\end{aligned}$

である. メインの方程式 (2) と誘導方程式 (3) をまとめて, 係数行列 $\mathbf{B}$ を用いて,

$\begin{align} \tilde{\boldsymbol{y}}_{i}= & \mathbf{B}\tilde{\boldsymbol{z}}_{i}+\tilde{\boldsymbol{\varepsilon}}_{i}\tag{4}\label{eq:red}\end{align}$

というようなシステム方程式で表すことができれば, $\tilde{\boldsymbol{\varepsilon}}_{i}$ の同時分布のパラメータを $\tilde{\boldsymbol{y}}_{i}$ , $\mathbf{B}$ , $\tilde{\boldsymbol{z}}_{i}$ で表せるから, 多変量線形回帰モデルを最尤法で推定する場合と同じになる. ただし, メインの方程式の右辺に含まれる内生変数 $\boldsymbol{y}_{2i}$ は, 他の方程式の従属変数でもある. よって, まず, (2) を (3) に積み上げたシステム方程式を以下の形で表す.

$\begin{aligned} \boldsymbol{\Gamma}\tilde{\boldsymbol{y}}_{i}+\mathbf{B}_{0}\boldsymbol{z}_{i}= & \tilde{\boldsymbol{\varepsilon}}_{i}.\end{aligned}$

ここで,

$\begin{aligned} \underset{( (1+L)\times(1+L))}{\boldsymbol{\Gamma}}=\begin{bmatrix}1 & -\underset{(1\times L)}{\boldsymbol{\gamma}^{\prime}}\\ \mathbf{0} & \mathbf{I}_{L} \end{bmatrix}, & \underset{( (1+L)\times Q)}{\mathbf{B}_{0}}=\begin{bmatrix}\begin{matrix}-\underset{(1\times M)}{\boldsymbol{\theta}_{1}^{\prime}} & \underset{(1\times(Q-M))}{\mathbf{0}^{\prime}}\end{matrix}\\ -\boldsymbol{\Pi} \end{bmatrix}\\ \underset{( (1+L)\times1)}{\tilde{\boldsymbol{y}}_{i}}=\begin{bmatrix}y_{1t}\\ \boldsymbol{y}_{2t} \end{bmatrix}, & \underset{(Q\times1)}{\boldsymbol{z}_{i}}=\begin{bmatrix}\boldsymbol{z}_{1i}\\ \boldsymbol{z}_{2i} \end{bmatrix}\\ \underset{( (1+L)\times1)}{\tilde{\boldsymbol{\varepsilon}}_{i}}=\begin{bmatrix}\varepsilon_{i}\\ \underset{(L\times1)}{\boldsymbol{v}_{i}} \end{bmatrix}.\end{aligned}$

上記の定義より $\boldsymbol{\Gamma}$ が正則行列なのは明らかなので, $\tilde{\boldsymbol{y}}_{i}$ にかかっている係数行列 $\boldsymbol{\Gamma}$ を $\boldsymbol{\Gamma}^{-1}$ で打ち消せば, $\tilde{\boldsymbol{y}}_{t}=(-\boldsymbol{\Gamma}^{-1}\mathbf{B}_{0})\boldsymbol{z}_{i}+(\boldsymbol{\Gamma}^{-1}\tilde{\boldsymbol{\varepsilon}}_{i})$ となり, (4) の形状になる. つまり, $\boldsymbol{\Gamma}$ は内生変数のランク条件に対応するパラメータ行列ということになる. また, 念押ししておくが, $\boldsymbol{y}_{2i}$ より $\boldsymbol{z}_{2i}$ の次数が多い, つまり過剰識別の状態でも, この行列は定義可能である.

誤差項 $\tilde{\boldsymbol{\varepsilon}}_{i}$ が平均ゼロの多変量正規分布に従う ( $\tilde{\boldsymbol{\varepsilon}}_{i}|\boldsymbol{z}_{i}\sim\mathcal{N}(\mathbf{0},\boldsymbol{\Sigma})$ ) と仮定すれば, その同時密度関数は, 共分散行列 $\boldsymbol{\Sigma}$ を用いて

$\begin{aligned} f(\tilde{\boldsymbol{\varepsilon}}_{i}) & =(2\pi)^{-(1+L)/2}|\boldsymbol{\Sigma}|^{-1/2}\exp\left\{ -\frac{1}{2}\tilde{\boldsymbol{\varepsilon}}_{i}^{\prime}\boldsymbol{\Sigma}^{-1}\tilde{\boldsymbol{\varepsilon}}_{i}\right\} \\ & =\kappa\exp\left\{ -\frac{1}{2}[\boldsymbol{\Gamma}\boldsymbol{y}_i + \mathbf{B}_{0}\boldsymbol{z}_{i}]^{\prime}\boldsymbol{\Sigma}^{-1}[\boldsymbol{\Gamma}\boldsymbol{y}_i + \mathbf{B}_{0}\boldsymbol{z}_{i}]\right\} \end{aligned}$

と表せる ( $\kappa:=(2\pi)^{-(1+L)/2}|\boldsymbol{\Sigma}|^{-1/2}$ ).

ちなみに, どの方程式にも内生変数がない, つまり $\boldsymbol{\Gamma}=\mathbf{I}_{L+1}$ の場合, もっとも基本的な多変量回帰モデルである SUR; Seemingly Uncorrelated Regression になる. SURは, 複数の線形回帰モデルが同時に存在し, かつ説明変数が全て外生変数のため, 方程式が一見すると (seemingly) 互いに無関係であるが, 共分散行列の形状しだいで他の方程式と相関しあってしまう, というモデルである.

上記の密度関数を, $\boldsymbol{y}$ , $\boldsymbol{Z}$ , $\boldsymbol{\Gamma}$ $\mathbf{B}_{0}$ で標本平均をとった目的関数が, 尤度関数となる. もちろん対数尤度関数に変換できる. 対数変換すれば, CML を適用でき, 局外母数 $\boldsymbol{\Sigma}$ を推定せずにすむ.

このように, 内生変数のあるモデルのパラメータを推定するために, 誘導方程式を合わせた多変量回帰モデルに最尤法を適用することを, 特に制限情報最尤法 (LIML; Limited Information —) と言うことがある. なぜそう呼ばれるかを説明すると前置きが長くなるため, ここでは単にそういう名称があるという知識だけで良い.

LIML は過剰識別制約の検定も可能である. また, 漸近的に2段階最小二乗推定量に一致するが, これ以上の LIML に関するより詳しい説明は, Hayashi (2000, Econometrics) の Chapter 8 Examples of Maximum Likelihood を参照.

非線形の場合も, 線形の場合の類推で, 操作変数の数が十分にあり, 識別されていること, 尤度関数の最大化問題が一意解をもつことなどが条件となる. しかし, 一口に非線形といってもさまざままな形状があり, 複雑さには際限がない. よって, あまりに複雑なモデルを仮定しても, 尤度の計算が困難となる場合もある. 比較的簡単で, かつ計算可能な非線形モデルとしてロジットモデルがあるので, これは次回に具体的に説明したい.

どちらがより優れた推定方法か

Hayashi (2000, Econometrics) の Chapter 7 より, 最尤法の漸近分散はフィッシャー情報行列の逆数, つまり分散の下限と同じであることと, GMMの分散ががそれ以上であることを述べている. さらに, サンプルサイズが有限の場合においても, より分散が大きくなることが多くのシミュレーションを用いた研究で示唆されている (条件やモデルの違いで異なるが). GMM は最尤法に対し, 全般的に効率性で劣る.

ところで, (条件付き) 最尤法を採用するにあたって, 正規分布を仮定したが, 本当にそれでよいのだろうか. $f_{y|x}$ は「真の」分布でなければならない.

しかし, 実際に分布がなんであるか, ということに対して事前には分からないことが多い. よって, 実際には別の分布であるにも関わらず, 誤って分布を仮定して推定している可能性が常に存在する. このように, 実際のものと異なる分布関数を当てはめた最尤法を, 擬似最尤法 (QML; Quasi-Maximum Likelihood method または PML; Pseudo-Maximum — ) と呼ぶ. 擬似最尤法は, 仮定された分布がそもそも誤っているため, サンプルサイズの増加にしたがって推定量の収束する先も, 「擬似的な真の値」になり, 分布の誤りによっては, そもそも一意に収束しないということもありうる*7. 事後的には, 仮定した分布に従っていることを帰無仮説とした仮説検定が可能だが, 久保 (2012, データ解析のための統計モデリング入門 — 一般化線形モデル・階層ベイズモデル・MCMC) で「利点がない」と批判されているように, 他により利点の多い代替案が存在する (例えば, MCMC).よく確認したら久保の言及しているのは疑似最尤法ではなく一般化混合モデルの古い近似計算の方法だった

GMM.com - himaginary’s diary では, 最尤法とGMMの差異を端的にあらわした評論が紹介されている. 前半では, ここで言及したように, GMMは効率性で最尤法に劣ることに言及されている. しかし同時に, 「ビッグデータの時代」つまり十分なサンプルサイズが確保できる場合が増えている現代では, 最尤法の効率性は絶対必須にはならないこと, そして尤度を解析的に求めるのが難しい場合でも SMM (Simulated Method of Moments. System Method of Moments ではない) でシミュレーションよってモーメントを求めれば実行できること, 最尤法がKLダイバージェンスの最適化原理*8に忠実で融通が利かないのに対し, GMMは目的に応じてモーメント条件を設定すれば, その目的に対して最も良い近似ができることを主張している.

ただし, ここで尤度を解析的に求めるのが難しい場合, GMM に軍配が上がると主張されているが, 実際には最尤法もシミュレーション的な方法が導入されているため, フェアな比較ではない気がする.