ill-identified diary

所属組織の見解などとは一切関係なく小難しい話しかしません

「機械学習とビジネスを橋渡しするものこそ評価指標であり, "全てのビジネスは条件付期待値の最大化問題として書ける"」という話の問題点と代替案

この記事は最終更新日から3年以上が経過しています



概要

  • 機械学習とビジネスを橋渡しするものこそ評価指標であり, ”全てのビジネスは条件付期待値の最大化問題として書ける”仮説についての一考察 - 株式会社ホクソエムのブログ』というブログ記事に対する私の昨日の twitter での連続投稿の話を書き改め, 説明不足な部分を補った.
  • 昨日と同様に, (I) 条件付き期待値だけでよいか, (II) ビジネスモデルと機械学習の性能評価は一致しないのか, (III) こういった話題を扱う既存の教科書・参考書はないのか, という観点でもう少し丁寧に解説する.
    • (本当はIIに関してはもう少し自分の考えと先行研究を整理してから書きたかったが, 私も最近似たような問題意識を持つことがよくあるのでご意見を開陳してみる)
  • 技術的な話としては以下のようなトピックに触れている (そこまで高度ではない)
    • (条件) 期待収益をどうコントロールするか
    • 共変量シフト・内生性・選択バイアスのあるときに条件期待値を最大化できるか
    • 機械学習1の分類モデルの予測確率をどう評価するか (いわゆる calibration)
  • 基本的に元の記事に書いてないことに対しての指摘なので, 藁人形になってる可能性もあるが, ひととおり代替案を提示しているので生産的でない水掛け論に終わることは回避しているつもり
    • 元の記事に合わせてふんわりした話になっているので, 数式は出てくるものの厳密な定式ではない. 気に入らない人は適宜参考文献をあたってほしい.

はじめに

先日『機械学習とビジネスを橋渡しするものこそ評価指標であり, ”全てのビジネスは条件付期待値の最大化問題として書ける”仮説についての一考察 - 株式会社ホクソエムのブログ』という記事が公開されました. 私は次のような論点があると受け取りました.

  1. ビジネスの収益を条件付き期待値として書けば, 条件付き期待値の最大化問題としてビジネスの収益を上げることができる
  2. その期待値は機械学習の評価指標と似ているが, ズレがありうまくいかない可能性がある
  3. 特に教科書に出てくるような方法ではうまくいかない

昨日私は twitter で感想を投稿しましたが, おそらくほとんどの人には何を言ってるのかわからないと思います. そこで改めて人が読んでわかりそうな構成にまとめてみました.

結論から言うと, そのようなアプローチは可能性があり, やる価値があるのではないかと思います. しかしこの記事で提示されている方法や解説にはいくつか疑問を感じました. ここではその溝を埋めるために, 私の考えたことを整理して述べてみます.


I. 条件付き期待値が全てか?

この観点に関して私には2つの論点があります. 1つは既にtwitterで書いたように, 条件付き期待値の条件に最も注意を払う必要があるという点, もう1つは期待値いがいの評価観点も必要である, という点です. まずは内容の簡単な後者から説明します.


i 条件付き「期待値」だけでよいのか?

期待値コントロール」という言葉をときどき耳にしますが, 結果はしょせん確率に左右され, まず期待値通りにはなりません. 期待値からどれだけズレが発生しうるか, つまり分散についてもコントロールできたほうが良いのではないかと思います.

ある期待リターン (=ここでいう条件付き期待値) を得るために, リスク (=条件付き分散) を最小化する, 数理ファイナンスにおけるポートフォリオ配分問題のようなものをイメージしていただければ良いと思います2. 株や債券その他の金融資産のリターンは予想できないので, 期待値だけでなく, 分散を考慮する必要があります. 多くの人は大損することは好まないでしょうから, 利益は一定の期待値を維持しつつ, 損する可能性を減らしたいと思うはずです. つまり条件付き期待収益の最大化問題ではなく, 条件付き分散の制約付き最小化問題です.


\begin{align}
& \min \mathrm{V}(\mathit{profit}\mid a_i) \\
& \text{s. t. } \mathrm{E}\left(\mathit{profit}\mid a_i \right) \geq B
\end{align}

ポートフォリオ配分問題を知らない人のために, 機械学習フレームワークからも類推してみます. 例えば平均二乗誤差 (MSE) を思い出してください (RMSE でも MAE でも本質的に変わりません). 目的変数  y_1,y_2,\cdots,y_N に対して機械学習の回帰モデルが  \hat{y}_1,\cdots\hat{y}_N を予測したとして, その予測がどれだけ当てはまっているかは MSE で測ることができます.


\begin{align}
\mathit{MSE} &:= \frac1{N} \sum_{i=1}^N(y_i -\hat{y}_i)^2
\end{align}

もし機械学習でもあてはまりの期待値だけを考えるなら, 2乗したり絶対値を取ったりする必要はありません. このように目的変数と予測値の平均値のズレだけを考えればよいことになってしまいます.


\frac{\sum_i y_i}{N} - \frac{\sum_i \hat{y}_i}{N}

しかし機械学習のモデルをこのような式で評価しないのは, 平均の差 (バイアス) と分散 (バリアンス) のどちらもバランスよく小さくしたモデルが良い予測をするとされるからです (汎化性能).  (\hat{y}_i -y_i)^2 の期待値は以下のように, 予測値のばらつき (バリアンス) と予測値の平均的なずれ (バイアス) の2つに分解できます (これは簡略化した式です. 詳細は専門的な教科書のバイアス-バリアンス分解の解説を見てください. 例えば Hastie, Tibshriani, and Friedman (2009) の7章など)


\begin{align}
\mathrm{E}\left\{(\hat{y}_i - y_i)^2\right\}  &= \mathrm{V}(\hat{y}_i) + \left\{\mathrm{E}\left(\hat{y}_i \right) - y_i\right\}^2 \\
& = \mathrm{V}(\hat{y}_i) + \mathit{bias}(\hat{y}_i)^2
\end{align}

このように, 実際には条件付き期待値だけでなく, 分散の観点での評価も必要ではないかと思います (条件付き期待値ではなく「条件付きモーメント」へ一般化すれば良いのかもしれません).

この説明はあくまで類推ですが, 私が指摘したいのは, 機械学習のモデルはこのように厳しく評価されるのに対し, 元の記事では求めた条件付き期待値がどれくらい正確なのか・意味のあるものなのかを, 評価する視点が書かれていないということです3. その評価方法の1つとして, 条件付き分散も視野に入れたほうが良いのではないかと思います (この基準を何にするかは他にも意見がありうると思います).

このリスクに関する話は私の「独自研究」であり, 広く合意されている話ではないかもしれませんが, 一方で完全に私独自の発想というわけでもなく, ヒントになったものがあります. 例えば 2015年の KDDZhang and Wang (2015) はリアルタイム入札広告 (RTB) での収益の最大化を, ポートフォリオ最適化になぞらえて行う方法を提案しています. RTB という特殊な場面での話なので, この方法を他のビジネスにそっくりそのまま横展開するのは難しいですが, 理論上は期待値や分散をうまく推定できれば同様のアプローチができるはずです.

2021/7/6 追記: https://twitter.com/Nanaki_tw/status/1410735178369044487 このやりとり (あるいは他にもいくらか似たような指摘を見かけました) で言及されているように, こういった問題は典型的な解き方としては, 期待効用の最大化による意思決定問題と定義して扱うものがあります. しかし, 今回はそういった厳密な定式化をしていません (私自身が不勉強なので, 「ビジネス」というざっくりして適用範囲がとても広い問題に対し厳密にどう扱うべきかすぐに思いつかなかったため). この文脈で今回の条件付き期待値問題を掘り下げる話は後日書きたいと思います.


ii 条件付き期待値の条件とはなにか?

次に, twitter の投稿で指摘したかったことを改めて整理します.

元の記事では賃貸ビジネスの収益を例にしています. 収益の期待値の条件に, 入居希望者が家賃を滞納するかどうかのアクション  a_i という値を与え, これを機械学習でもなんでもいいので適当な方法で求めればよい, と主張されています. しかし実際には  a_i というより, その入居者に関する細かい属性情報 (=特徴量)  x_i で条件づけた  a_i|x_i に関心のある場面が多いと思います. アクションはそれが起こるまで観測できませんから. たとえば顧客のセグメントを考えるには,  x_i は必須です. それは機械学習であれ, 単純なクロス集計によって決めたものであっても同じことです. そして機械学習にも人間の決定にも大なり小なり確率的な誤差があるため, 無視せず条件付き期待値に織り込んで評価する必要があります.

そのような, 特徴量を条件とした期待値を考えた収益モデルを具体例を挙げて考えてみます.


メディアミックスモデルを例に

私の当初のtwitterの投稿ではメディアミックスモデル (MMM) (Jin et al. 2017) を例に挙げました. これは複数のチャネルへの広告出費 (spendings) を説明変数に, 商品/サービスの売上 (sales) を目的変数としたモデルです (MMM の詳細は元のレポートか, 私のスライドを確認してください). つまり, MMM は以下のような条件付き期待値ということです.


\mathrm{E}\left(\mathit{Sales}\mid \mathit{Spendings} \right)

この場合は, 収益の条件付き期待値は  \mathrm{E}\left(\mathit{Sales} -\mathit{Spendings}\mid \mathit{Spendings} \right) = \mathrm{E}\left(\mathit{Sales}\mid \mathit{Spendings} \right) - \mathit{Spendings} という引き算で表せます. よって収益の最大化の方法もここから分かります.

MMM の条件付き期待値の中身は, 実際にはもっと複雑ですが, 本質的に  \mathit{Sales}_i = \alpha + \beta \mathit{Spendings}_i のような回帰モデルと同じです. よってまずはデータを学習させパラメータを推定します. その後, 今度は推定したパラメータを所与として,  \mathrm{E}\left(\mathit{Sales} -\mathit{Spendings}\mid \mathit{Spendings} \right) を最大化する  \mathit{Spendings} を計算で求めれば, (モデルの推定が適切ならば) 収益を最大化する広告費の配分がわかる, というのが MMM 考案者の提案となります. つまり MMM というフレームワークでも, 条件付き期待値の最大化が提案されていることになります.


外挿と選択バイアス

モデルを使ったこのような操作は外挿と呼ばれます. 通常, モデルの学習はデータの多い箇所ほど学習されます. よってデータ  \mathit{Spendings} に実際の出費額のボリュームゾーンと大差ない値を代入すればうまく行きやすいですが, そうでない場合は誤差が大きくなると言われています. 例えば図1の単回帰の例を見てください. このデータは  x=0 あたりがボリュームゾーンになっており, 回帰直線はその周辺で当てはまりが良いですが, ボリュームゾーンから離れるほど誤差が大きくなります.

f:id:ill-identified:20210701231724p:plain
図 1: ボリュームゾーンを離れると誤差も大きくなる

最大化の結果どのような値が最適とされるかはケースバイケースなので, この問題は避けては通れません.

さらに, 収益を最大化するとされる  \mathit{Spendings} が分かれば, 以降はこの額のみ使うことになると思います. しかしそうなると,  \mathit{Spendings} が同じ値のデータしか蓄積できなくなります. これは明らかに, 分析用のデータとして偏ったものでしょう. 偏ったデータを学習した結果は, 図2のように当初のものとは大きく変わってしまいます. 果たしてどちらが正しい推定でしょうか?

f:id:ill-identified:20210701231743p:plain
図 2: 最適化後の偏ったデータからの学習

これは機械学習では共変量シフト, 経済学では内生性, 因果推論では選択バイアスなどと呼ばれる現象と関係しています (上記の図はちょっと手抜きしているので, 共変量シフトが最も近いと思います). また, 推薦システムの分野でもエコーチャンバー効果などと呼ばれているようです4

もちろん, ここから条件付き期待値の最大化が実現不可能だと言いたいのではありません. 機械学習的な方法で解決できる可能性があります (たとえばバンディット問題を応用するとか) し, 前提条件 (支出額  \mathit{Spendings}) が変化してもロバストな結果を得られる推定方法はなにかと考えれば, 因果推論的なアプローチが使えるかもしれません. 一方でこのような現象を考慮せずに単純な回帰分析やロジスティック回帰 (もう少し高度なもの, ニューラルネットや *Boost などでも同じです) をして得たモデルを「条件付き期待値」に置き換えても, うまくいかないかもしれません.5 つまりこういったケースでは機械学習に必ずしもこだわる必要はありませんが, かといって「機械学習で決めなくてもよく、人間が赤ペンをなめて適当に決めても良い」というわけではなく, 典型的な交差検証いがいの観点でもモデルの評価が必要であり6, 技術的に最も気をつけるべきはこのステージだと思います.


補足: 条件付き期待値の条件付けに関して

ここまで読んで, 当初の記述のように「機械学習を使わずに決めればこのような問題は気にしなくてもよい」と思うかもしれません. もちろん機械学習の不要な場面もありうるでしょう しかし, 例えば特徴量  x_i を全く考慮せず, 機械学習アルゴリズムも使わず単純にデータの平均値から  a_i を決めたとしてもそれは結局定数項しかない回帰モデル(or 分類モデル)と同一です. よってこの場合もやはり, ここまでに挙げた問題を向き合う必要があります.


II. 機械学習の性能評価 ≠ ビジネスモデル なのか?

こちらは (I) よりも技術的に込み入った話になります. 一旦は (I) で指摘した問題を忘れ, 機械学習で条件付き期待値をうまく求められるか, というマイクロな話に限定します. また, メディアミックスモデルではなく, 元記事の例に沿って解説します.

まず「分類問題」とは言いますが, 今回の例で実際に必要なのは分類ではありません. 期待値を求める上で, 元の記事ではアクション  a_i を的中させる分類モデルについて考えていましたが, ここではアクション  a_i の発生確率  p_i を考えます.  a_i は家賃を払うか滞納するかの2通りしかないので, どっちの確率で考えてもよいです. 元記事でも言うように, 「機械学習でもなんでもいいので」もし  p_i がわかれば期待値も計算できます. すると, 例えば正答率 (Precision) はラベルの正解の割合, F値は2通りのラベルの正解を傾斜配点して評価したいときのメトリクスなので, 確率をうまく予測できているかの評価として不適切となります.

しかし, 機械学習が全く今回のような問題を考慮してないということはないです. この辺は日本語の文献が少ないので, twitter で「Flach (2012) の教科書がよい」とコメントしただけだったところをもう少し詳しく書きます. 実は私が以前書いた資料で少しだけこういった話題に言及しているのでこの記述の再放送をします (ただし元資料は読み返すとミスリードな記述もあり要注意です).


分類モデルと確率の推定

実は, 機械学習の分類モデルの使い方もいくつか分類されています. Gail and Pfeiffer (2005) での記述に基づいて, 以下のように3つに分けます.

  1. 分類 (accuracy): ラベルを的中させること
  2. 判別 (discrimination): どのラベルの可能性が高いかのスコアを求めること
  3. 確率推定 (probability estimation)7 : ラベルの可能性のスコアを, 発生確率として解釈できる形で求めること

期待値の計算で必要なのは (3) ですが, F値や Precision は予測確率で計算しないので明らかに (1) の性能を評価しています. ROC 曲線の Area-under-the-curve (ROC-AUC) は, ラベルの予測値そのものではなく, 予測スコアを使用して計算するので (2, 3) いずれかになると予想できると思います. そして実際のところ AUC は予測確率ではなく, 予測スコアのランクを見るものなので, (2) です. AUC は確率という絶対値ではなく, スコアの大小関係を評価します.

簡単な具体例を提示しましょう. 以下の表1のように2つのモデルがそれぞれ異なる予測スコアを出力しています. 特にモデル1 は 2 という値を出しており, 確率として不自然です. しかしそれぞれの ROC や AUC は全く同じです(図3).


表 1: 2通りのモデルの予測

y

モデル1

モデル2

1

2.0

0.9

1

0.9

0.8

1

0.2

0.4

0

0.5

0.5

0

0.1

0.3

0

0.1

0.1

f:id:ill-identified:20210701231815p:plain
図 3: 異なるモデルの同じ ROC

(もう少し AUC の性質について厳密な話が知りたい, という方は, AUC がマン=ホイットニー=ウィルコクソン統計量と同じであるという話 (Hanley and McNeil 1982) や, データの分布によって AUC の値域が変動し, 公平な比較ができない問題点の指摘 (Cook 2007) なども確認してください)

よって, (1) 予測確率が 0-1 の範囲を超えていて確率として不適切な値であっても, AUC では良い評価を示すことがあり, (2) 予測確率の値が異なっていても ROC や AUC が変化しないことがあります.8 そのため, これを確率として扱えるよう較正 (calibration) する必要があります. isotonic scaling (Leeuw, Hornik, and Mair 2009; Luss, Rosset, and Shahar 2012) とか Platt scaling (Platt 2000) というものが既に提案されています. 一方で, ロジスティック回帰などはモデルの性質上, 予測スコア  \hat{p}_i は常に 0-1 の範囲になっているため, こういった較正はおそらくほとんど効果がなく, 不要であることが多いです (これらの元論文もサポートベクターマシン (SVM) を想定してます).


確率推定の評価はできるのか

機械学習による確率推定が正しいのかをどう評価すればいいのかというと, 評価指標として最も古くからあるものの1つは Brier スコア (Brier 1950) です. 確率の予測値  \hat{p}_i に対して, 以下のように定義されています.


\begin{align}
\mathit{Brier} &:= \frac1{N} \sum_{i=1}^N(y_i -\hat{p}_i)^2
\end{align}

すぐに気づいた人も多いと思いますがこれは平均ニ乗誤差 (MSE) を予測確率にそのまま当てはめただけです. そして MSE との違いは, 正解データ ( p_i) が存在せず, ラベル  y_i で代用しているということです. この正解データが存在しないというのが確率推定の評価の難しいところです.

その後年, この問題に関して機械学習分野で研究が進んでいます. 例えば Zadrozny and Elkan (2001);Naeini, Cooper, and Hauskrecht (2015);Guo et al. (2017) のように, 確率推定の評価方法について近年は 2, 3年に1本くらいのペースで, 実験ベースの結果が学会で発表されている印象です (細かい応用事例も含めるともっと多いと思います). 機械学習分野では必ずしもロジスティック回帰にこだわらないので, 確率推定の評価方法と予測値の較正方法の提案がセットになっていることが多いです. また, 評価方法の定義にもバリエーションがあります. 最初に挙げた Flach (2012) での説明が詳しいのは, 決定木で確率推定を行う方法です. 決定木のリーフノードの誤分類率から予測確率を求めたり, ディリクレ分布で平滑化を行う方法が紹介されています.

医療統計の分野でも確率推定9が重視されるため, こちらでもいろいろな確率推定の評価方法が提案されています. calibration curve (plot) とホズマー=レメショウ検定 (Hosmer and Lemeshow 1980) というものが提案され, 以降もそこから発展して評価方法がいくつか提案されています (最近では Van Hoorde et al. (2015);Alba et al. (2017);Austin and Steyerberg (2019) があります) が, 具体的な方法の解説は今回の話から外れるので省略します.10


III. こういう話の教科書・参考書はないのか?

2021/7/6: 言葉足らずかと思ったので追記: このように, 分類問題で確率を推定する方法というのは機械学習分野でも考えられているため, 元記事の問題設定で言えば, この確率推定や較正を応用できるのではないかと思います. 一方で, ビジネスモデルは多種多様なので, すべてが今回のような式になるとは限りません. これは本当に多様なので私も全容を把握できておらず, 一般化した数式で表現するのは (少なくとも私にとっては) 難しいです. そしてビジネスモデル全般に話を広げるなら, 機械学習の方法を具体的にどう応用するか, という問題について広く論じた教科書・参考書はまだ存在しないと思います. 更に言うなら, 応用できそうな機械学習の方法を列挙するだけでもキリがないと思います (なので今回は内生性という私がすぐに思いついた問題だけを取り上げました).

既存のディシプリンで, ビジネスを数理モデルで扱うという話ですと, マーケティングサイエンスが比較的近いと思います. 具体的な手法は異なることもありますが, 顧客生涯価値 (LTV) をどう推定するかとか, 数理モデルの問題に落とし込むパターンは同じだと思います. 例えば Hanssens, Parsons, and Schultz (2002)Katsov (2018) はどちらも広範な話題をあつかっており, かつ邦訳があります (後者は原著が一般公開されています). ただし, 前者は機械学習というより昔からある統計学/計量経済学的なアプローチが多く, またこの記事の想定読者にとってはやや高度な内容かもしれません. 逆に後者は実際に応用するにはやや初歩的な話が多いです. なお Flach (2012) はあくまで機械学習の教科書なので, 今回のような「ビジネス」の問題への応用は書かれていません.

特に, 私がここで提案した, 機械学習の確率推定によって収益の条件期待値 (およびリスク) を求めるようなアプローチは, 私の独自意見なのでこれらの教科書には書かれていません. もちろん, 課題解決のために条件付き期待値と機械学習を分離することにこだわる必要はないと思います. つまり, 正確さについて事後評価ができる「収益モデル」であるならば全く別の定式化であってもよいと思います (そうすると既存のフレームワークやコード資産を使えなくなるので, 開発や運用の技術が必要になります).

他にも, 「経営工学」「オペレーションズ・リサーチ(OR)」などいろいろな名前の領域が関係していると思います. あるいは「数理ファイナンス」や「保険数理」もリスクを扱う応用数学の一種なので, 応用できるかもしれません. しかしこれらは私自身は不勉強なので参考書を挙げることはできません.

また, 私が強調したように, 条件付き期待値の条件の分布が変わるような状況では, 正しく条件分布を推定するのが難しい, という話は, 本文でも述べたように経済学でも, 機械学習でも, 統計学でも研究されています. 特に経済学で典型的なものは構造推定と呼ばれる一連のアプローチです. しかし残念ながら私は構造推定を専門に勉強したわけでもなく, 初心者向けの教科書というのもありません (新書として 伊神 (2018) があります).


まとめ

  1. 期待値の良さを分散など何らかの指標で評価したほうが良いのではないか
  2. 条件付き期待値の条件付けに注意
  3. リスク/確率を推定するための機械学習も研究されている

参考文献



Alba, Ana Carolina, Thomas Agoritsas, Michael Walsh, Steven Hanna, Alfonso Iorio, P. J. Devereaux, Thomas McGinn, and Gordon Guyatt. 2017. “Discrimination and Calibration of Clinical Prediction Models: UsersGuides to the Medical Literature.” JAMA 318 (14): 1377. DOI: 10.1001/jama.2017.12126.

Angrist, Joshua D, and Jörn-Steffen Pischke. 2009. Mostly Harmless Econometrics: An Empiricist’s Companion. Princeton University Press. https://www.mostlyharmlesseconometrics.com/. 大森義明・小原美紀・田中隆一・野口晴子訳『 ほとんど無害な計量経済学 -応用経済学のための実証分析ガイド-NTT出版. 2013.

Austin, Peter C., and Ewout W. Steyerberg. 2019. “The Integrated Calibration Index (ICI) and Related Metrics for Quantifying the Calibration of Logistic Regression Models.” Statistics in Medicine, July. DOI: 10.1002/sim.8281.

Brier, Glenn W. 1950. “Verification of Forecasts Expressed in Terms of Probability.” Monthly Weather Review 78 (1): 1–3. DOI: 10.1175/1520-0493(1950)078<0001:VOFEIT>2.0.CO;2.

Cook, Nancy R. 2007. “Use and Misuse of the Receiver Operating Characteristic Curve in Risk Prediction.” Circulation 115 (7): 928–35. DOI: 10.1161/CIRCULATIONAHA.106.672402.

Flach, Peter A. 2012. Machine Learning: The Art and Science of Algorithms That Make Sense of Data. Cambridge ; New York: Cambridge University Press. 竹村彰通・田中研太郎・小林景・兵頭昌・片山翔太・山本倫生・吉田拓真・林賢一・松井秀俊・小泉和之・永井勇訳『機械学習 データを読み解くアルゴリズムの技法』朝倉書店. 2017.

Gail, Mitchell. H., and Ruth M. Pfeiffer. 2005. “On Criteria for Evaluating Models of Absolute Risk.” Biostatistics 6 (2): 227–39. DOI: 10.1093/biostatistics/kxi005.

Guo, Chuan, Geoff Pleiss, Yu Sun, and Kilian Q. Weinberger. 2017. “On Calibration of Modern Neural Networks.” In Proceedings of the 34th International Conference on Machine Learning, 70:1321–30. Sydney, NSW, Australia. https://dl.acm.org/citation.cfm?id=3305518.

Hanley, J A, and B J McNeil. 1982. “The Meaning and Use of the Area Under a Receiver Operating Characteristic (ROC) Curve.” Radiology 143 (1): 29–36. DOI: 10.1148/radiology.143.1.7063747.

Hanssens, Dominique M., Leonard J. Parsons, and Randall L. Schultz. 2002. Market Response Models: Econometric and Time Series Analysis. Vol. 12. International Series in Quantitative Marketing. Boston: Kluwer Academic Publishers. DOI: 10.1007/b109775. 阿部誠・パワーズ恵子訳『マーケティング効果の測定と実践有斐閣. 2018.

Hastie, Trevor, Robert Tibshriani, and Jerome Friedman. 2009. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd ed. Springer. https://web.stanford.edu/~hastie/ElemStatLearn/. 杉山将・井手剛・神嶌敏弘・栗田多喜夫・前田英作監訳『統計的学習の基礎共立出版. 2014.

Hosmer, David W., and Stanley Lemeshow. 1980. “Goodness of Fit Tests for the Multiple Logistic Regression Model.” Communications in Statistics - Theory and Methods 9 (10): 1043–69. DOI: 10.1080/03610928008827941.

Jin, Yuxue, Yueqing Wang, Yunting Sun, David Chan, and Jim Koehler. 2017. “Bayesian Methods for Media Mix Modeling with Carryover and Shape Effects.” Google Inc. https://research.google/pubs/pub46001/.

Katsov, Ilya. 2018. Introduction to Algorithmic Marketing: Artficial Intelligence for Marketing Operations. Grid Dynamics. https://algorithmic-marketing.online/. 『AIアルゴリズムマーケティング 自動化のための機械学習/経済モデル、ベストプラクティス、アーキテクチャインプレス. 2018.

Leeuw, Jan de, Kurt Hornik, and Patrick Mair. 2009. “Isotone Optimization in R : Pool-Adjacent-Violators Algorithm (PAVA) and Active Set Methods.” Journal of Statistical Software 32 (5). DOI:10.18637/jss.v032.i05.

Luss, Ronny, Saharon Rosset, and Moni Shahar. 2012. “Efficient Regularized Isotonic Regression with Application to Gene–Gene Interaction Search.” The Annals of Applied Statistics 6 (1): 253–83. DOI:10.1214/11-AOAS504.

Naeini, Mahdi Pakdaman, Gregory F. Cooper, and Milos Hauskrecht. 2015. “Obtaining Well Calibrated Probabilities Using Bayesian Binning.” In Proceedings of the AAAI Conference on Artificial Intelligence, 2015:2901–7.

Platt, John C. 2000. “Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods.” In Advances in Large Margin Classifiers, 61–74. MIT Press. DOI:10.1.1.41.1639&rep=rep1&type=pdf.

Rosenbaum, Paul R. 2017. Observation and Experiment: An Introduction to Causal Inference. Cambridge, Massachusetts: Harvard University Press. 阿部貴行・岩崎学訳『統計的因果推論入門共立出版. 2021.

Van Hoorde, K., S. Van Huffel, D. Timmerman, T. Bourne, and B. Van Calster. 2015. “A Spline-Based Tool to Assess and Visualize the Calibration of Multiclass Risk Predictions.” Journal of Biomedical Informatics 54 (April): 283–93. DOI: 10.1016/j.jbi.2014.12.016.

Zadrozny, Bianca, and Charles Elkan. 2001. “Obtaining Calibrated Probability Estimates from Decision Trees and Naive Bayesian Classifiers.” In Proceedings of the Eighteenth International Conference on Machine Learning - ICML ’01, 609–16. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc. https://dl.acm.org/citation.cfm?id=655658.

Zhang, Weinan, and Jun Wang. 2015. “Statistical Arbitrage Mining for Display Advertising.” In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - KDD ’15, 1465–74. New York, New York, USA: ACM Press. DOI: 10.1145/2783258.2783269.

伊神 満. 2018. イノベーターのジレンマ」の経済学的解明. 日経BP.

杉山 将. 2006. “共変量シフト下での教師付き学習.” 日本神経回路学会誌 13 (3): 111–18. DOI: 10.3902/jnns.13.111.

杉山将, 山田誠, ドゥ・プレシマーティヌス・クリストフェル, and リウソン. 2014. “非定常環境下での学習:共変量シフト適応,クラスバランス変化適応,変化検知.” 日本統計学会誌 44 (1). https://doi.org/10.11329/jjssj.44.113.

高井啓二, 星野崇宏, and 野間久史. 2016. 欠測データの統計科学. 岩波書店.



  1. ここでは流れで機械学習と言ってますが, 実際には統計学的な手法も導入しています. ここで機械学習だから使う, 統計学だから使わない, と制約をかける意味はないと思います.↩︎

  2. ちなみに私は数理ファイナンスは素人でほぼリスク最小化の話しか知りません. もっと適した方法があったら指摘してください.↩︎

  3. ただし収益の条件付き期待値に機械学習のメトリックの関係について論じようとしているので, 何らかの考えがあるのかもしれません.↩︎

  4. 共変量シフト概念は 杉山 将 (2006);杉山 et al. (2014) が参考になります. 内生性は 計量経済学の教科書を適当に (手元には英語のものしかないので確認できませんが日本語のものでも問題ないはずです. 例えば Angrist and Pischke (2009) の邦訳とか.). 選択バイアスは, 高井, 星野, and 野間 (2016)Rosenbaum (2017) の邦訳があります. ただし後者ではこの名称は登場しません.↩︎

  5. 私の元の投稿での「機械学習」というのはこういった初歩的な方法に限定した範囲を指していました.↩︎

  6. ところで外的妥当性と汎化性能を混同しているかのような記述がたまにネット上で見られますがこれは正しくありません. 両者は完全に独立したものではないかもしれませんが, 少なくとも現時点では交差検証だけでは因果推論の妥当性は保証できない (逆もまた然り) というのが通説だと思います.↩︎

  7. 実際には較正 (calibration) で検索したほうが論文等が引っかかることが多いのですが, 単語と実際にやっていることとの間に微妙に齟齬があるのでここではこう表現しています. Flach (2012) でもこの表現が使われています.↩︎

  8. この点からいうと, 判別や確率推定はランキング学習と関係があります.↩︎

  9. この分野ではリスク推定と呼ばれます. 紛らわしいことに, 医療統計でいうリスクは数理ファイナンスのリスクと意味が異なり, 単純にあるイベントの起こる確率を表します.↩︎

  10. これらで提案されたメトリクスの一部は, scikit-learn での使用を想定して https://github.com/fan-ADN/ml-shared でひっそりと公開しています.↩︎