[異種試合] ディープラーニングVSディープパラメータ

ユリウス暦2020/1/6更新: その後のこの分野の急速な発展のため, 情報を更新した
ill-identified.hatenablog.com

概要

今やかなり使い古された感じのあるテーマだが, 統計学と機械学習の違いについて, 分析の対象が社会現象である場合に限定して自分なりの考えをまとめてみた. 例えば, 以下の,

tjo.hatenablog.com

でも説明が試みられていて, ここにあるように「統計学は説明すること重視し, 機械学習は予測性能を重視する」ということが重視されているというのは自分も同感で, さらにその後で言及されているように, 使用されている数学的な基礎づけは共通するものが多く, ただ解釈の違いが違いを生んでいるというのが強い. そこで, 社会現象を対象に分析する場合に限定して, なぜ社会科学*1で用いられる従来の統計学と機械学習が異なるのか, これからどう変わるのかを雑に論じる.

かなり思いつきや先入観で書いてる箇所が多いので専門家からの反論を歓迎します。
異種試合というタイトルにしたがパフォーマンス比較とかはやらない
文章量はpdf換算で4ページくらい

社会科学ではなぜ予測をしないのか

もちろん全く考えてないわけではない. 予測性能を全く見ないということは, 過剰適合 (過学習) になりかねない. モデル選択の際には AIC や BIC を見るし, 初級レベルの計量経済学の教科書 ( 浅野・中村 (2009) 『計量経済学』とか羽森 (2009) 『ベーシック計量経済学』とか) でほとんど必ず紹介される「自由度修正済み決定係数」はあきらかに過剰適合の問題を意識したものだ. しかし予測に関して紙面を割くのはその程度で, 推定量が一致性を持つための前提条件とか, 回帰係数の有意検定のためにバイアスのない標準誤差を求める方法といったものに関する議論が教科書や論文のメインであり, 「モデルはデータを説明しているか」の検証に偏重しているのは確かだ.

それで, なぜ説明に偏重しているかというと, やはり「予測が難しい」という問題にあるのだと思う. 時系列データをもちいた予測といえば, ランダムウォークの要素のあるモデルはより遠くの将来の予測値を出そうとするほど, 不確実性が大きくなることは, この分野を少し勉強した人なら知っているだろう.

f:id:ill-identified:20151017000555p:plain

未来の予測ほど分散が増大するランダムウォーク

ランダムウォークの問題が必ずと言っていいほど絡むのもそうだが, もう1つ, 社会現象の予測について重要な問題がある.

自己成就的な社会現象

参考として, ここ http://www.ipss.go.jp/syoushika/tohkei/newest04/sh2401top.html の「解説および参考推計(条件付推計)報告書」にある, 国立社会保障・人口問題研究所の人口推計に関するスタンスとして, 次のような一節を引用する.

人口変動を含め、社会科学が対象とする事象について「予測」を行うということは、未来を言い当てるという種類の予測、すなわち予報（forecast）をするということとは異なる。天体の軌道や天候などと違って、社会経済は人間が変えて行くものであるから、われわれの今後の行動しだいで無数の展開の可能性を持っており、現在において定まった利らいというものは存在しない。したがって、科学的にそれを言い当てるという行為もあり得ないだろう。すなわち、将来の社会経済を予測するということは、標本データから母集団の未知の平均値を推定するといった作業とは本質的に異なるものである。すなわち、推定すべき真の値はわからないのではなく、（まだ）存在しないのである。
（中略）
結果として将来を言い当てることに役割があるのではなく、科学的妥当性のある前提の下に、今後に何が起こり得るかを示すことを目的としている。
Population Projection for Japan

ここで言及されているように, 対象 (人間) には自我があるため, 社会現象には自己成就的な側面がある. 例えば, 個人レベルの話で言えば「このまま暴飲暴食を続ければ肥満になって健康を害しますよ」と予告 (アナウンス) を受ければ, 食習慣に注意するようになり, 肥満になることを回避してしまうかもしれない. 人間の集団, つまり社会では最も顕著な例が金融で, 日銀や外国の中央銀行が政策に関する発表を行えばすぐに相場が変わるのも同じだ. あるいは, もう少し日常的な題材なら, 「売り上げが下がり続けている. このまま業績が悪化し続けたらクビだよ」などと上司にハッパをかけられたら, あなたと同僚たちは奮起せざるを得ないだろう.

f:id:ill-identified:20151017000723p:plain

予言に対して結果が変わる

さらに, オンラインゲームとか課金ゲームのテコ入れ施策を例に取って考えてみる*2. 例えば, 利用客が退屈に感じはじめ, 課金が減ってきた時期を見計らって, 課金ガチャで当たりが出る確率を上昇させる, 課金額が割引される, などの施策を打つとする. 最初のうちは, 利用客が反応して普段より遊び, トータルの課金が増えるかもしれない. しかしそのうち利用客も, 割引されるときだけにプレイしたほうが得だと考えて, 平日は課金するのを控え, 休日にだけ重点的に遊ぶという方針をとるかもしれない. 結果として, 当初よりもテコ入れによる効果は小さくなる*3.

f:id:ill-identified:20151017000828p:plain

テコ入れが来ることを期待して普段は課金しない

一方で自然科学では, 素粒子や天体は自我を持たないので, 科学者の発表した予測に反応して異なる動きをすることがない*4. ヒト以外の動物もおそらく, 自分が実験対象であるという自覚はほとんどないだろうし, それによって実験結果が左右されることもないだろう.

また, 社会科学の分野で, 統計的な分析から得た数値を「推計」という言葉でよく表現するのも, これと関係して, 将来の見通しに対する断定的なニュアンスを避けて「予測」いるかもしれない*5. また, クロスセクションやパネルデータではそもそも時系列的な変化を見るものではないため, 定点観測のような側面がある.

予測困難?予測不可能?

しかし, 社会現象の予測の困難さを指摘した上で, 先の引用で一点注意したいことがある. それは「推定すべき真の値はわからないのではなく、(まだ) 存在しないのである」という一文だ. 経済学の場合はふつう, 真のパラメータが存在しないという前提で議論されることはない. 社会の動きは自己成就的に変わるので, 表面的なパラメータは変わる可能性がある. 先ほど例であげたように, アナウンスに反応してコロコロ変わるようなパラメータのあるモデルは役に立たないという有名なルーカス批判 Lucas (1976) Econometric Policy Evaluation: A Critique がある. そのため, 人間の行動の裏には予言に対しても不変で根本的なパラメータが存在する, と仮定し, 何らかの方法でそれを推定できるのでは, ということをモチベーションとしているのが今の経済学である. これを構造パラメータとかディープパラメータ*6などという. もう1つ重要な概念として, 先のオンラインゲームの図にも書いた「合理的期待」があり, 経済に参画している人間は将来をあるルールにしたがって予想して行動を決めると仮定する. すると, 予想が正しい限り行動がうまく行くため, 結局のところ経済の要因を, 観察対象の人間が主観的に予測した変数と, 予測から逸脱したイレギュラーな事件*7とに分解できる. これが少し前から経済学で主流になっている DSGE モデルの基本になる.

しかし実際のところ, DSGE モデルは予測性能に問題があり, センセーショナルな例だとリーマンショックをうまく予測できなかったなどという事実から批判されることが多い. これに対して, 現在は予測性能の改善のため, カルマンフィルタを利用して推定するのが標準になりつつある. DSGEの推定方法は, 日本語なら廣瀬 (2012) 『DSGEモデルによるマクロ実証分析の方法』あたりを参考にするといいかもしれない.

機械学習が従来の統計学に取って代わるのか?

経済学で主流のフレームワークでは予測性能が低いというのを事実として, では予測性能を重視する機械学習によって克服できるかという問いが出てくる. 機械学習と言っても, 最小二乗法とかロジスティック回帰とかは計量経済学でも普通に使うので, ディープラーニングのような複雑高度な手法を対抗馬として考えてみる. おそらく機械学習・人工知能を主にやってきた人々は, そもそも経済学がモデルに対して課しているミクロ的基礎付け (micro foundation) が恣意的な仮定にすぎないと批判し, ディープラーニングのアルゴリズムに全てを委ねた方がよい予測モデルを作れる, と言いたがるだろう. しかし, 生まれた予測値の精度が良いだけでは, どの要因がその結果を生んだのかということを把握したことにはならない. 経済モデルの重要な用途の1つとして, 政策のもたらす結果の推定がある. これはまさしく,

財政支出を何億円(あるいは何パーセント)減らしたらGDPが何億円(何パーセント)くらい減少するか
妊婦が喫煙をしたら新生児の健康にどのくらい影響があるか (医療よりの話ではよくあるテーマだが、生理現象が感情で変化するということはなさそうなので社会現象の例とは少し異なるか)

というように変数の因果関係を知る必要がある.
そもそも, 現在の計量経済学においても古典的な最小二乗法をひたすら繰り返している, などということはないので, パラダイムシフトというほど重大な変化ではなく, カルマンフィルタやGMMがより予測に優れるニューラルネットワークに置き換わったとしても, 単なるテクニカルな改善の延長であり, そもそも機械学習がメインの研究者であっても予測と因果効果の分析とで手法を使い分けることが普通ではないだろうか.

もちろん, 実用上は予測性能の改善は重要だ. 実用的なディープラーニングの研究はまだ日が浅いからか, 経済モデルに対してディープラーニングを適用してうまくいったという話はまだ聞かないが, もしディープラーニングの応用で DSGE よりはるかに予測性能に優れたモデルを作ることができれば, それだけで学術的にも十分なインパクトになるし, 複雑な人間の行動パターンをどう解釈するかの示唆を少なからず与えてくれるだろう*8.

参考文献

Lucas, Robert E. 1976. “Econometric Policy Evaluation: A Critique.” Carnegie-Rochester Conference Series on Public Policy 1: 19–46. doi:10.1016/S0167-2231(76)80006-1.

廣瀬康生. 2012. DSGEモデルによるマクロ実証分析の方法. 三菱経済研究所.

羽森茂之. 2009. ベーシック計量経済学. 中央経済社.

浅野皙・中村二朗. 2009. 計量経済学. 有斐閣.

*1:ほぼ経済学の話だが

*2:とは言ってもそういうゲームは遊んだことはあまりないし運営もしたことがないのであまり正しい把握でないかもしれない. この手のビジネスは上位数パーセントの利用客が売り上げの大半を担っているとも聞くので, これ以降の考えはビジネスモデルとしてあまり有用でないかもしれない.

*3:これは平均への回帰として説明する向きもあるが

*4:物理学は素人だが, そうですよね?

*5:してないかもしれない

*6:ディープラーニングではない

*7:撹乱項, イディオシンクラティック・ショックとかいう

*8:人間が解釈できないまま技術的特異点を超えてしまってもいいのではないか, くらいラディカルな考えの人もいるかもしれないが.