計量経済学と機械学習の関係 –AI はさだめ, さだめは反事実 (転送用)

概要

この投稿は, 2019年7月15日に開催された第80回Tokyo.Rでの応用セッションの発表内容を加筆修正したバージョンである. ただし R の話はほとんどなかった.

近年注目を集めている機械学習に対して, 経済学の伝統的な計量経済学 ( $\simeq$ 統計学) がどう影響を受けているか, また逆に機械学習がどのように従来の統計学的なアイディアを取り入れているかについて語る. カバーするトピックはかなり広範囲のため, ある程度の知識がないと難しいだろう. こちらもなるべく簡易に書くよう努力するが, とはいえ高度な話題に対してはそれなりの前提知識を要するのも事実である. 想定読者は, 機械学習か計量経済学の基本的なトピックを知っている (例えばいずれかの標準的な教科書を読んで内容をある程度理解している) 人間である. ただし参考文献リストを多く挙げているので, それらを地道にたどればわからないこともない.

また, 発表から時間があいたため, いくらか加筆・変更をしている.

サブタイトルはAIと愛を掛けただけで(Tiptree, 1973), 本文の本質を捉えてうまいこと言ってるということは特にない.

参考: 過去の記事の中でも特に長いものとして, causal impact , 三国志はいずれも pdf 変換すると30ページに少し届かないくらいだが, 今回は50ページ以上ある. そして前二者はいずれも画像がかなり多いが, 今回はあまりない. 参考文献リストが全体の1割くらいなので体感ではさほど長くないと思う.

本文が長すぎてはてなブログだとエラーでまともに編集できなかったので以下リンク先のpdfを見て下さい

github.com

発表からこの原稿の公開まで時間があいてしまったため, かなりの部分を加筆・変更している. 主な箇所は以下の通り.

全体的な構成を見直し, 論題をわかりやすくした (ただし抽象さが増した気がする)
スライドではいい加減な説明になっていた内的・外的妥当性と機械学習関係, そして最近の機械学習の新たな取り組みの再評価について私の考えをより明確に書いた
7月以降に発表された研究・文献についても改めていくつか取り上げた. 例えば:
- 2019年10月の Athey & Imbens (2019)
- 2019年12月の NeurIPS で行われた CausalML Workshop で発表された研究
- Deaton & Cartwright (2018) の RCT 利用への批判と Imbens (2018a) による反論
- 赤池 (2008), Akaike (2010) の「納度」概念
- 2019年11月の経済セミナーの機械学習特集
- Pearl (2009), Pearl & Mackenzie (2019)の文脈での, いわゆる「Pearl流因果推論」と, Imbens (2019)の解説
ところどころに「脱線した話題」というセクションを設けて関係ありそうで関係のないポエムや雑学を書いた
その他神経質な人間しか気にしない内容を脚注に書いた