非連続回帰デザイン(Regression-Discontinuity Design)

RDDとは?

前回 で言及したRDDについて, もう少し詳しく話すために個別に記事を書いた. Regression-Discontinuity Design (RDD) “Reforms as Experiments” は, Campbell (1969) で, 政策評価のために提案された方法論. Campbell (1969) には RDD 以外の話題もあるが, 17-25ページ で RDD が提案されている. 日本語では, まだ訳語が統一されていないので, SEO 対策として 「不連続回帰デザイン」「回帰分断デザイン」「回帰非連続計画」など訳にゆらぎがある, ということを始めに書いておく. RDD について言及する前に, 政策の「因果効果」の検証方法の基本的な考え方について説明したい.

因果効果と対照実験

因果効果は端的に言うと, 「ある処置AをしたことでBという結果が生まれた」という法則のことで, この因果効果を発見するには, 対照実験を行う. 時事ネタに影響された例だが, 林檎を2つ用意する. 一方には何もせず, もう一方には「罵声」を浴びせ続ける. これを数日続けた後で, 前者が腐らず, 後者だけが腐った場合, 「罵声は林檎の腐敗をすすめる」という因果効果があることになる, と言うわけにはいかない. 比較対象を用意することで因果効果を見つけるというのは基本的な発想だが, この例ではサンプルを2つしか用意しなかった. そのため, 「言葉をかける」行為と関係なく, 偶然に腐るのが早かった/遅かっただけかもしれないし, そもそも用意した時点で片方の林檎が傷んでいた可能性もある*1.

そのため, 実験を行う際には, ある程度のサイズのサンプルを用意し, 処置を加えるグループ(これを処置群とか treatment group とかいう)と加えないグループ (これを対照群とか control group とかいう) に分割して実験することで, 実験とは無関係の偶然要素を排除する. これがいわゆる統計学的な考え方になる. さらに, 分割のやり方も注意が必要で, 処置群だけにすでに傷んでいる林檎ばかりが分配された状態で実験をすれば, あきらかに因果効果の検証として不適切になる. そうならないように無作為に分配する「ランダム化」が必要になる.

ランダムでなければ因果効果はわからない?

ランダム化は, 人間が観察対象であるような実験ではそれが難しいことがある. ランダム化の難しさの例として, Campbell (1969) の喩えを借りるなら, 「ある児童にポリオワクチンを投与し, ある児童には生理食塩水を投与」してワクチンの効果を確かめようとすれば, 全員にワクチンを与えるよりも多くの児童を死なせてしまう. 人間を対象にした実験は, 多くの場合倫理的・社会的・政治的に (あるいは予算的に) 実行が困難である.

このように, 制約上「ランダム化」を行えない場合, どのような問題が発生するのかもう少し具体的に書いてみる. ポリオワクチンのような, 何らかの治療方法の効果を, 「実験」をせずに調べたいとする. 実験が出来ないため, 臨床データを調べるしかないが, そもそも治療を受けている人間はどういう人間だろうか. 病院で診察と治療を受けるにはお金がかかる. よってデータはある程度裕福な人間に限られてしまう. 日本では社会保障制度が充実しているため, 想像しにくいかもしれないが, 受診コストが低いので, 体力の衰えた老人ほど多く病院に来たがる, というバイアスが発生するだろう. このような理由から, 臨床データはランダム化されているとはいえない.

よって, ランダム化ではなく, それに近い状況を作り出す, あるいは探しだすことであたかも実験室での実験室であるかのように扱う, ということを追求するようになる.

このような発想に基づく手法は, 自然実験 (natural experiment), あるいは擬似実験 (quasi-experiment) と呼ばれる (つまり「社会実験」とは別の概念). アングリストらの研究にあてはめると, 「実際には少人数教育の検証の実験として, 児童を大人数教育と少人数教育にランダムに割り当てたのではないが, 操作変数や RDD という手法を使うことで, 擬似的に対照実験の環境を創りだした」 ということになる.

政策の是非をコストとリターンの観点から論じるとき, やはり似たような状況におかれることがある. 例えば, 極端な例なら大型土木建築. 一昔前に, 「脱ダム宣言」という言葉が流行ったが, あれは当時の長野県知事の鶴の一声でダム建設が中止になった. あるいはもう少し最近だと事業仕分け. あれもスーパーコンピュータ建設計画に対し「2番ではダメなのか」という発言が話題になった. これらの事例では, 政治家のその場の思いつきで政策の判断がなされているように映る. 実際には単なるパフォーマンスで, その裏で長いこと考えぬいた末の決断だったのかもしれない. しかし, どっちにしても, その意思決定の過程は不透明ではある.

ここでは個別の事例の是非は置いておくとして, 政策というのは税金をコストにして国民にリターンを還元するのだから, 政策はコストにみあったリターンを出すものである必要がある*2. しかし, ダム建設の利益を確かめるために, 実際にいくつもダムを作って実験する, などというのは考えるまでもなく非現実的だろう. よって, 政策をコストとリターンの観点から論じる (費用-便益分析) 場合も, 自然実験の手法を用いて政策の是非の判断材料とすることができる.

RDD に対する言及はないが, (労働) 政策評価で用いられる方法論の基本的なコンセプトが書かれた文献に, 黒澤 (2005) 『積極的労働政策の評価−レビュー』 があり, これは無料で読むことができる. ここまでの話を, 数式を用いて厳密に述べているので, より理解を深めることができるはずだ. Angrist and Pischke (2009) “Mostly Harmless Eoconometrics: An Empiricist’s Companion” 2章, もしくはその訳本でもよい. 政策評価における因果効果の検証に対する一般的な解釈が簡単に書かれているので, こちらも参考にするとよい.

非ランダムでも因果効果を推定できるRDD

さてここで, RDD の応用ができる具体的な問題として, 研究者に対する研究助成金の給付について考えてみる. 政府や自治体が, 研究者に対して助成金を給付したいが, 予算の問題もあるので, あらゆる研究者に対してばらまくわけにはいかない. そこで研究内容を審査し, 有望と判断されたな研究テーマに対してのみ給付することにした. 給付がおこなわれたのち, 給付金が実際に研究の進展に効果があったのかどうか, ということを調べたい. しかし, 最初に述べたように, 給付をする対象を選り好みしているため, サンプルは「ランダムに」選ばれていないのは明らかだ. 予算がないため, 改めてランダムに助成金を給付するわけにもいかない. では, どのようにして擬似的にランダムなサンプルを作り出せばいいのか.

研究者が助成金をもらえるかどうかは, 研究が一定のレベルに到達しているかどうかで決定される. では, 助成金をもらえる・もらえないのレベルのしきい値 (カットオフ・ポイント) 付近であれば, 助成金をもらえた研究者ももらえなかった研究者も, 研究のレベルは非常に近いはずで, ある研究者は僅差で惜しくも助成金を逃し, また別の研究者はギリギリで合格ラインに達していることになる. よって, サンプルのうち, このカットオフ近辺のデータだけを抽出して検証すれば, 条件の似た個体が揃い, 擬似的にランダム化したのと同じ状況に近づけることができる.

この局所的なサンプルについて, カットオフポイントに満たなかった個体 (つまり助成金をもらえなかった) とカットオフポイントを超えた個体 (助成金をもらえた) を比較して, 研究のアウトプットに大きな差があれば, 「助成金は研究の成果を上げることができる」という因果効果と, その効果の大きさを知ることができる*3. よって, 助成金をもらえたなら 1 を, そうでないならゼロとなるダミー変数  D_{i} を用いて, 次のような回帰式を定義し推定する.

\begin{equation}
y_{i} = \boldsymbol{x}_{i}^\prime\boldsymbol{\beta} + \rho D_{i} +\varepsilon_{i} \tag{1} \
\end{equation}

この係数  \rho助成金の効果を表すことになる. これが RDD の基本的なフレームワークである.

また, カットオフポイントがはっきりと決まっていない (つまり「ファジー」) 場合もある. もちろん, 完全にでたらめに決まる場合は無理だが, ある程度ルールと, 若干の揺らぎがある場合は, 検証できる可能性がある. これを Fuzzy RDDという. Fuzzy RDD に対して最初の RDDSharp RDD と呼ばれることもある. 前回紹介した Angrist and Lavy (1999) や赤林・中村 (2011) はこの Fuzzy RDD を利用している. アングリストらの研究では, 児童のクラス分けは基本的にはマイモニデス・ルールに従っていたが, ルールから外れた事例もいくつか存在した. そこで, この割り当てに相関する変数を用いることで, 間接的に割り当てルールを推定し, そこから Sharp RDDと同様にダミー変数の係数を推定した. より厳密に言うなら, Sharp RDD では単純なルールで決まっていた変数  D_{i} が, Fuzzy RDD では確率分布であると仮定する. この確率分布を推定することで,  D_{i} の推定値を得る. 例えば, 単純な形なら,

 \begin{equation}
D_{i} = \boldsymbol{x}^\prime \boldsymbol{\delta} + \theta z_{i} + \eta_{i} \tag{2} \
\end{equation}

をまず推定する.  z_{i} が新たに用いられる変数で, (1) の誤差項とは無相関である必要がある. この推定値を本来の  D_{i} の代わりとして用いれば, RDD の式を推定できる. 要するに, 操作変数法, あるいは2段階最小二乗法と同じ*4である. なお, ここでは  D_{i} はダミー変数を前提に議論していたが, 理論上は連続変数も使用可能である. 実際, アングリストらの研究では学年の入学者数*5が用いられていた上, カットオフポイントが複数存在したため, ここで説明した式をより一般化したケースだと言える.

RDD について解説された文献は, Campbell (1969) のほか, Angrist and Pischke (2009) の6章があるが, 日本語では詳細に解説された文献が見つからない (訳語が定着していないことも見つけにくさを助長している?). パワーポイントファイルのため, やや記述が断片的だが, 日本学術会議 経済学委員会 数量的経済・政策分析分科会の発表資料 『ノンパラメトリック,セミパラメトリック計量経済分析:応用例』の13ページ以降が有用だろうか.

RDDの課題

RDD は一般に, カットオフ周辺の区間にあるサンプルだけを切り取るが, この区間を狭くすれば狭くするだけ, その中に含まれる個体の条件は均質になっていくはずで, つまりより正確な効果の大きさを求めることができるはずである. しかし, 確率的な統計推測論をある程度分かっている人はもう気づいているかもしれないが, 区間を狭くすることで精度をあげる, というやり方には落とし穴がある. 区間を狭くすればするほど, サンプルサイズは小さくなる. サンプルサイズが小さくなれば, 標準誤差が増大し, 有意な値になりにくくなるし, 第1種の過誤, つまり「偶然」の結果が必然の因果効果と見誤る可能性が大きくもなる. 区間と統計的な信頼性のトレードオフについては, Imbens and Kalyanaraman (2012) “Optimal Bandwidth Choice for the Regression Discontinuity Estimator” で最適な区間を選ぶ方法が提案されている.

もうひとつの論点として, 外的妥当性の問題がある. つまり, 非連続が発生するカットオフポイント近辺の狭いデータだけを見るため, カットオフポイントから離れた位置のデータを無視していることになるのが問題視される. 実際, アングリストらの研究でも, 幅を狭めるほど係数 (の絶対値) が大きくなっていることが確認されている. 外的妥当性については, 客観的な指標が存在しないため, 分析の目的に応じて妥協する必要があるだろう*6.

参考文献

Mostly Harmless Econometrics: An Empiricist's Companion

Mostly Harmless Econometrics: An Empiricist's Companion

「ほとんど無害」な計量経済学―応用経済学のための実証分析ガイド

「ほとんど無害」な計量経済学―応用経済学のための実証分析ガイド

*1:皆さんも経験があるだろう. 少しいやな臭いのし始めた肉を食べて腹痛を催すときもあれば, 無いときもある, ということを. あるよね?

*2:もちろん, 社会保険生活保護のように, 利益というよりも不公平に対して不公平をもって打ち消すタイプの政策も存在するし, どの程度それを許容するかも個人の信条しだいだろう.

*3:政策評価の場合, 因果効果があることは最初から分かっているが, 効果の大きさを具体的に知りたい, という場合もある

*4:ダミー変数だから, Wald推定量というのが最も正しい?

*5:これも厳密には連続な数ではないが……

*6:よって, 実は, 学級規模を35人から40人へ増加させる政策の是非を問う材料としては, 適切ではないのだ.