ill-identified diary

所属組織の見解などとは一切関係なく小難しい話しかしません

「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 -

この記事は最終更新日から3年以上が経過しています

この文章は pandoc-hateblotex ファイルから変換しています. PDF 版はこちら

2021/10/15 追記: 後半のベイジアンブートストラップに関する解説はこちらのほうがおそらく正確です

ill-identified.hatenablog.com



概要

挑発的なタイトルに見えるかも知れないが, 私はしらふだしこれから始めるのは真面目な話だ — 正直に言えばSEOとか気にしてもっと挑発的なタイトルにしようかなどと迷ったりはしたが.

「全数調査できれば標本抽出の誤差はなくなるのだから, 仮説検定は不要だ」という主張を見かけた. いろいろと調べた結果, この問題を厳密に説明しようとすると最近の教科書には載ってない話題や視点が必要なことが分かった. ネット上でも勘違いしている or よく分かってなさそうな人をこれまで何度か見かけたので, これを機に当初の質問の回答のみならず関連する話題をまとめて紹介する.

初めに

先日 R-wakalang で次のような質問があった.

「全数調査のデータを扱う時は記述統計は使ってよいけれども推測統計は使ってはいけない」

「標本サンプリングのカバー率が100%になっただけだから推測統計も使ってもよい。 ただ、推測の結果が記述統計で計算したものに近づいていくはずだから結局どちらでも問題ない」

のどちらが正しいのか.

私の第一印象は「問題の設定次第でなんとでも言えるだろう」であり, ごく限られた状況, 特定の問題を想定しなければそんな強い主張はできない, というものだ. 質問者がこのような主張を見かけたのは, 島田めぐみ・野口裕之統計で転ばぬ先の杖|第4回 t検定にまつわるDon’ts』というページで, 読んだところ果たしてかなり限定された状況を想定した主張だったので違和感の正体についてR-wakalang上で回答した. しかしこのその回答はいろいろな参考書や論文を読んで少しづつ形成された私個人の「素朴理論」というやつである. よってこれを機会に過去の議論も調査し, こういった誤解はいろいろな暗黙の前提があり, その違いを無視しているために発生していることをより正確に説明したい. 記憶があいまいではあるが, 私は今回いがいにもインターネットのどこかで母集団の意味とかについてよく理解してないような発言も何度か見かけたことがある. もしかすると母集団の意味することについて, 実は結構な数の人が見てみぬふりをしているのではないだろうか? これはおそらく, 一般的な統計学の教科書では, 縦割りになってしまい俯瞰することができなかったために発生しがちな誤解ではないかと私は考えている. そこで今回はこれまで分野ごとに別の教科書にわかれがちだった内容を横断的に見つめる構成にしたつもりだ.

しかし一方で, 世の中ではさまざまな問題に統計学機械学習が応用され, それぞれに専門家がいる. 当然ながら私はあらゆる分野の専門家などではないので, ここで言及されてない観点での見方や誤りがあればコメントをおおいに歓迎する.

本文の構成は次のようになっている. 次の第2節では, 冒頭の命題が何を主張しているかの論点を整理したうえで, 統計学の基本的な概念, 母集団標本について再確認し, 実務上適切な主張なのかを議論する. おそらくこのページを目にする多くの人は, ここでなんとなく納得してしまうだろう・・・それ以降は一気に難解になるから. 第3節では, 統計学の理論フレームワークについて深く見直し, 有限母集団に基づいた標本理論にそもそも矛盾や不整合があることを指摘した上で, それを解決する別の理論を紹介する. ご想像の通りそれはベイズ統計のことだが, もしあなたが「頻度主義?なんかさいきんはベイズが偉くて, 単にカウントするだけの頻度主義は使うと怖い先生に怒られるらしいからやめとこ・・・」くらいの認識でいるのなら, 頻度主義統計とベイズ統計の違いに対する理解がより深まるかもしれない*1.

主張の論点整理

まずは質問者が紹介した主張を確認し, 何が問題なのかを古典的な理論の枠組みの範囲で説明する 冒頭の2つの命題のうち, 1つは根拠となる記事の著者にちなんで「島田・野口命題」と呼び, 後者を質問者の名前から「K 仮説」と呼ぶ. 「島田・野口命題」の元の記述は以下のようなものである.

全データの情報が得られていない場合、統計手法を用いて、サンプルデータから全データについて推測できるのです。ですから、もし対象としているデータが母集団の全データであったら統計的推測は行いません。

さらに続けて以下のように述べている.

そのころ日本語能力試験がスタートして10年の節目を迎え、過去10年の問題の分析を行うことになりました。(中略) t検定を用いようとしたところ、「全データを分析しているのだからt検定をする必要がないし、してはいけない」と野口から指摘されました。確かに、母集団は日本語能力試験の聴解類の問題で、実際に扱っているデータは過去問題すべてでしたから、「母集団に関する推定」をする必要はなかったのです。そのころ、島田は、正しく「母集団の推定」の意味を理解していませんでした。野口の指摘がなかったら、危うく誤った分析を世に公表しているところでした。

さらに次のパラグラフ冒頭で以下のように述べている.

母集団の全データが分析対象となっている場合は、推測統計の手法を用いずに、統計的記述の方法で分析します。統計的記述の方法というのは、この場合は、平均値、標準偏差相関係数などを示すということになります。

つまり正確には「学力試験の受験者を母集団とした全数調査で, 要約統計量 (=記述的統計) 以外の方法で出した統計量は誤りである」という主張がなされている.

問題の定式化

全数調査なら推測は不要, という主張はつまり次のような仮定に基づく. 母集団のサイズが有限な Nであるとして, その中身は  \{x_{1},x_{2},\cdots,x_{N}\} という定数であると仮定する. そしてパラメータのうち, 母平均  \mu, 母分散  \sigma^{2} は以下のように母集団全体の標本平均と標本分散にそれぞれ等しいと「定義」する (他の母数も定義できるがこの問題の議論にはこれで十分).


 \begin{align}
\mu:= & \frac{1}{N}\sum_{i=1}^{N}x_{i}\\
\sigma^{2}:= & \frac{1}{N-1}\sum_{i}(x_{i}-\mu)^{2}\end{align}
多くの教科書では単に未知数  \mu,\sigma^{2}と定義することが多いが, それは無限母集団 (infinite population) を仮定しているからである. 今は有限母集団の話であり, 母集団の全ての個体から単純に計算すれば母平均と母分散*2にそれぞれ一致しなければならない. もし一致しないのなら, そもそも当初の主張は破綻する. そして各  x_{1},\cdots,x_{N}確率変数ではなく定数である. もし確率変数であるなら母平均も確率的に変動することになり, 母分散も x_{1},\cdots,x_{N}の分布に応じて修正せねば正確に測れない. つまり当初の主張は以下のような理論モデルを表している.

  1. 有限母集団に含まれる個体の値は全て定数であり, 確率的な誤差を含まない.
  2. (1) の仮定のもとで有限母集団の個体全ての平均や分散を取れば, それらは母数に一致する

そしてこの仮定のもとならば, 母集団の一部のみの標本では完全に一致しないから推測が必要だが, 全数調査なら上記のように一致するから不要, という発想は納得できる.

この設定は突飛なものではなく, 有限母集団 (finite —) の考え方に基づいたものである. 最近の多くの教科書では母集団の大きさは無限大, あるいはそうでなくとも標本サイズに対して十分に大きい無限母集団で, 全数調査は難しいと暗に想定していることが多いため, 上記に違和感を持つ読者もいたかもしれない. はっきりと有限母集団に基づく考え方で説明しているのは「標本調査法」と銘打った一部の教科書やマニュアルに限られるようだ*3. というわけで, 以降は有限母集団と言えば単に母集団のサイズが有限なだけでなく, 上記(1)の仮定を含むこと, 野口・島田命題に代表されるような有限母集団での推測の立場を「有限標本理論」と呼ぶことを覚えてほしい.

どこまで母集団に含めるのか

次に問題としたいのは, 母集団が本当に全数調査できるかどうか, である. 今回の「島田・野口命題」はあくまで母集団が「10年間の受験者全体」であり, 受験していない人は含めていないし, 前年や翌年の結果を推測するために使うのでもないため, この点では問題ない. しかし母集団を厳密に定めていないケースはよく見られる. 例えば最近流行している機械学習による「予測」は現在入手できるデータを学習して, 未来のデータ (あるいは学習データに含まれていないデータ) に対して予測する. このような用途では全数調査は原理上不可能である*4から, 過去のデータの平均が必ず未来に対する記述になるとは限らないし, 推測 (予測) が適切なものかどうかもよく考えねばならない. 例えば無限母集団ならば, 標本の外にある, まだ観測してないデータも既に観測したものと同じ分布から発生していると仮定することで予測が成り立つ.

なお, Andrew Gelman のブログの “How does statistical analysis differ when analyzing the entire population rather than a sample?” という投稿でも, 母集団の考え方に対する注意書きが見られる. 以下, 私の訳.

これはよくある質問です. たとえば全米50州のデータで回帰分析するとしましょう. これより多くの州からサンプリングすることはありません. これは母集団全部です. 当初の質問に戻ると, あなたは未来のケースも含めるより大きな母集団を考えているのでしょう. 言い換えるなら, あなたは未来のケースについて予測を立てることに関心があり, それは年ごとの変動に由来する不確実さを含んでいます. これはまさに我々が議席と投票数の関係曲線 (seats-votes curve) を推定するときにやったことです.

では同じ年の出来事なら, 全数調査の記述統計で全て説明できるだろうか? 既に書いたように, 母集団に対してなら, そうである. 「島田・野口命題」で想定しているのは, 「毎年の日本語能力試験の受験者全体」であって, 「日本に住む外国人全体ではない」つまり, 全数調査の要約統計は受験しなかった外国人に対しては何も言えない.

そもそも母集団という概念は適切なのか

この話は言い出すときりがないのだが, せっかくつい最近, 国勢調査という格好の事例が発生したので書いておこう. 国勢調査は5年毎に (実態を見れば母集団名簿に対して回答率100%というわけではないが) 全数調査として行われる. 回答者であるわれわれは「従業地」の記入が必要であるが, 今年は新型コロナウイルス (COVID-19) の対策としてテレワークを実施している企業はかなりあるだろうが, その一方でこの騒動が沈静化すれば, リモートワークは再び通勤に戻るところも多いだろう. すると, 2020年の国勢調査の集計結果だけ自宅勤務の回答者がとても多い, という結果になる. しかし調査票には「今年はコロナウイルスが蔓延していましたか?」という回答項目はない. 後年「母集団をありのままに反映している」ということで, 自宅勤務者の妙に多いこの全数調査の結果を使うというのは適切だろうか?

取得できるデータには限りがある. これは人工知能研究におけるフレーミング問題のようなもので, 「かもしれない」「かもしれない」とめったに発生しない状況を想定して取得し続けることには無理がある.

なお, 「言い出すときりがない」と書いたが, それは細かい反例を延々と挙げることが大抵の場合水掛け論にしか見えないからであって, 理論に一般化することには意義がある. 既に紹介した Gelman のコメントもこの問題の本質を表現しているように思える. 従来の有限母集団の考え方の限界を克服する立場から生まれた理論フレームワークも存在する. それは後述する.

標本誤差と非標本誤差

有限標本理論により, 「島田・野口命題」は特に矛盾がないように見える. しかし今は学力テストの結果という具体的な問題を扱っているため, 次は理論が現実の特性をうまく反映できているかも考えねばならない.

ここまでで考慮していたのは, 取得できない未知の標本に由来する誤差で, これは標本誤差 (sampling error) と呼ばれる. つまり, 有限母集団を全数調査できるならば推測が不要というのは, 標本誤差がなくなるから正しく母数を推定できるという意味になる.

ちょうど今は国勢調査の時期である. 国勢調査は典型的な全数調査だが, 一切の誤差がないとは言いがたい. 実際の統計調査では標本誤差いがいの誤差も発生し, それらは非標本誤差 (non-sampling error) と呼ばれる. 国勢調査における非標本誤差の実態についての研究はすぐには見つからなかったが, 美添 and 本郷 (1998)は官公庁統計では標本誤差より非標本誤差を問題視していたと述べており, 一般的な非標本誤差の原因をいくつか挙げている. それらは,

  • 測定誤差

  • 全項目無回答

    • 補足漏れ (noncoverage)

    • 不在 (not at homes)

    • 回答不能 (unable to answer)

    • 回答拒否 (hard core)

  • 一部項目無回答

  • 母集団名簿の不備

といったものである. 具体的には, たとえば測定機器の精度限界や回答者や集計作業のケアレスミスで発生する測定誤差, あるいはデータ収集の際に記入漏れや重複記録によるなどがありうる. 特に人間を対象にした調査は様々で, 誤回答や, そもそも「真面目に答える気がない」などといった可能性 (この辺の詳しい話は, 例えば盛山 (2004)を参考に) から単純な書き間違えまで, 様々な可能性がある. ちょうど最近行われた国勢調査も, 自由記入欄があるし手書きの調査票はすべて人間の手によって集計が行われるため, ヒューマンエラーの余地はいくらでもある. また, 「無回答」については, 国勢調査は回答までの猶予期間が長く, また未回答者には再調査が行われるのが普通だが, それ以外の調査ではそう手間のかかることはしていられない. 個人に対する調査なら回答者の生活スタイル (夜勤など) に影響しやすい. さらに, そもそも全数調査が技術的に難しい場合もある. 企業に対する調査なら起業して間もない事業所はふつうは利益率が高くなりがちだが, 新しい企業は母集団名簿から漏れやすいといったことから, サンプルセレクションバイアスを引き起こす可能性がある.

実務レベルの話では例えば文部科学省の『学校教員統計調査のFAQ』で実務上の問題について言及している. 非標本誤差は定量的に評価するのが難しいことが多いが, 無視してもいいものではない. そのため総調査誤差 (total survey error) アプローチという方法で統計調査の誤差を管理しているらしい. これは標本誤差と非標本誤差両方の要因を列挙して, それぞれの誤差を減らすようにする枠組みらしい (が, 私は標本調査の実務の話に詳しくないので省略).

有限標本理論の近似計算

ここまで「島田・野口命題」の是非を検討していたので, 次にK仮説を検討しよう. 頻度主義的な統計学では「無限に観測できたときの頻度」を確率として扱っている. そのため大数の法則中心極限定理といった「観測の数が無限大ならば・・・」という前提の漸近理論を適用できる. しかし有限母集団は名前通り観測できる数に限りがあるため, このような仮定を当てはめられない. 有限標本理論で確立されている計算方法の多くは, 無限母集団の場合に近似して計算しているだけである. その例の1つが有限母集団修正という計算方法で, 標本抽出率 ( =n/N) が十分に小さいなら無限母集団からの標本抽出に近似できるとするものである. しかし, K仮説が問題にしたいのは, 全数調査に近い状況, つまり n/Nが1に近い状況である. よって, 全数調査では要約統計量は母数に一致するが, そうでないときサンプルサイズを増やすと漸近的に母数に近づくという考えは有限母集団では支持されず, K 仮説は理論的に説明できないことになる. どうしても漸近理論を適用したいなら, 有限母集団のサイズが増大し無限母集団に近づいていったら……, という方向に議論するしかない*5.

補足: 無限母集団との対比

参考のためもう一度無限母集団の定義について確認しておこう. 今度は母集団から得られる個体はそれぞれ定数ではなく, 何らかの母数によって決まる確率変数である. ここでは単に全ての個体に対して共通の母数がある (もしくは「独立かつ同一の分布に従う」) と仮定されることが多い. 例えば共通の期待値  \mu_{\infty}と分散  \sigma_{\infty}^{2}を持つなどと考える:
 \begin{align}
\mathrm{E}x_{i}:= & \mu_{\infty},\\
\mathrm{V}(x_{i}):= & \sigma_{\infty}^{2}\end{align}
しかしこの抽象的な定義によって標本誤差・非標本誤差などいろいろな要因による誤差をまとめて確率として扱うことができる. もしサンプリングした  x_{i} に非標本誤差  \varepsilon_{i}が加わっており, 実際に観測できるのは  x_{i}^{\prime}:=x_{i}+\varepsilon_{i} だったとする. すると, 期待値と分散は


 \begin{align}
\mathrm{E}(x_{i}^{\prime})= & \mu_{\infty}+\mathrm{E}\varepsilon_{i},\\
\mathrm{V}(x_{i}^{\prime})= & \sigma_{\infty}^{2}+\mathrm{V}(\varepsilon_{i})+\mathrm{Cov}(x_{i},\varepsilon_{i})\end{align}
となるので, (1) 非標本誤差  \varepsilon_{i} の期待値がゼロで, (2)  x_{i},\varepsilon_{i}の共分散がゼロ, といった条件を満たすことが保証されれば本来の  x_{i}の平均をかなり正確に見積もれるが, 分散は  \varepsilon_{i} の分散が加味された値になってしまう, ということが理論的に分析できる.

ここまでのまとめ

以上から「島田・野口命題」は有限標本理論に基づいた主張で, 有限母集団を想定した全数調査で, なおかつ測定誤差を含む非標本誤差がほとんどない状況であれば誤りではないと言える. つまり実際の標本調査では非標本誤差も考慮する必要があるという話が欠落している.しかし, 具体例として挙げられている「日本語能力試験のデータ」がどの程度の非標本誤差があるのか私は分からない. それがこれまでの研究から無視してさしつかえない大きさと分かっているなら問題ないし, そもそも標本調査ではなく仮説検定が主題のコラムなので切り捨てたのかもしれない. 私はこの問題を追及する意義は少ないと感じた. あらためて当初の主張が問題ない状況である条件を箇条書きにする.

  1. 標本誤差が一切ない, または無視してさしつかえないほど微小 (非標本誤差ゼロ)
  2. 母集団は正確に有限であり, 将来の予測といったデータ外の現象を推測することに使用せず, 全数調査で全ての情報を取得できる (有限母集団)
  3. 母平均は母集団全ての個体の平均で, 母分散も同様に求められると仮定する
  4. 極端な状況で設定された母集団ではない (母集団の代表性*6 )

以上は有限標本理論として特別におかしな主張ではない. だが無限母集団であれば算術平均イコール母平均という定義は通常せず, 確率分布によって決まると考えるため, 上記と矛盾する. これが違和感の原因だろう. さらに, 有限標本理論は有限な事象を扱うため, もし観測の数が無限大ならば・・・という極限理論は厳密には適用できないから, K仮説も厳密には正しくない.

以上で一旦, 当初の質問に対する最低限の答えを出すことができた.

議論の一般化

以上で冒頭の「島田・野口命題」と「K仮説」についてのひととおりの回答を出した, しかし質問者の意図はこのあたりの理屈を詳しく説明してくれる文献がないか知りたいというものだったので, これ以降はより多くのケースに適用できる一般理論について話してみよう. 行間を読むことでヒントが得られる本は多いが, 残念ながらこの問いに直接答えた文献を私は知らない (字面通り本当に知らないだけ). しかし既に書いたように, 学力試験以外にも統計学的に取り組む問題は世の中に無数にあり, それぞれ異なる文脈を持つ. 今回の話は有限母集団の問題を通してそれぞれの理論の暗黙の仮定の違いを明らかにすることが目的である. 科学的な理論には常に仮定があり, その仮定を無視して正しい理論とか間違った理論とかいうのは無意味である. そしてこれ以降の議論はだいぶ抽象的になるため, 難度があがることに注意されたい.

超母集団アプローチ

すでに非標本誤差を例に挙げて当初の命題が条件付きでのみ正しいことは説明したが, もう少し抽象化した理論フレームワークについて言及する.

冒頭の質問に対して私以外にも yukihiro 氏が回答として浅野・矢内『Rによる計量政治学』を参考に「島田・野口命題」の反対説を紹介した. いわく,

例として小選挙区別の投票率を挙げています。300の小選挙区投票率を分析する際に、全数を利用することは比較的容易です。そして、この300のデータを母集団と見なせるかと考えた際に、母集団ではないと考えます。なぜなら、同じ日にもう一度選挙をやり直せばギリギリまで悩んでいた人などの行動は変化するだろうから、たとえ全数であっても母集団ではなく標本だと説明しています。

既に書いたように「島田・野口命題」の暗黙の前提はかなり限定的な状況であり, その状況以外を想定したこの主張は正確には反論ではない. しかし我々は非標本誤差のない語学試験以外の統計的な問題も考えなければならないから, 単にロジックが自己完結しているだけで納得してしまってはならない.

yukihiro 氏の投稿は, おそらく超母集団 (superpopulation) アプローチを想定した説明だろう. 冒頭の議論は暗黙の仮定として, 有限母集団  \{x_{1},\cdots,x_{N}\} の各値が固定であるとしている. 一方で超母集団アプローチでは全数調査でも偶然の要素があるから, 有限母集団であっても確率変数として扱うべきだということになる. これは有限母集団がさらに上位の超母集団という集合からサンプリングされたものであるというイメージで説明されている. 超母集団アプローチを想定すれば, 標本誤差・非標本誤差がないとしても確率的なゆらぎが残るため有限母集団のパラメータと全数調査の集計が一致するとは限らず, 統計的推測が必要になる.

しかし投票先をいくら悩もうが現実では必ずいずれかの結果が1つだけ観測されるため母集団の各値は固定であり, 全数調査では確率が入り込む余地がないようにも思える*7. つまり超母集団アプローチはまるでパラレルワールドの存在を仮定している非現実的な仮説にも見える. この問題はどう考えるべきだろうか. 星野 (2003)は標本調査のリスク評価は超母集団を想定しないと適切にできない場面を挙げ, さらにその中で次のように述べている.

筆者は超母集団を『議論を明確にする為の数学的道具に過ぎない』と解釈する. 超母集団を, 『実世界の確率的機構・過程の記述』とみなすべきではない.

たしかに電気電子工学の理論で複素数は必須だが, 複素数の実在性を気にする人はいないし, 優れた手法であるブートストラップ法のことをありもしないデータを捏造している不正なやり方だと言う人はいない. そもそも非現実的な仮定と言い出すと無限母集団や確率の概念そのものも否定せねばならない (実数や無限大は「実在」するのか? という普遍論争じみた話になってしまう). 上記のような投票に迷う人の存在や, 既に説明した非標本誤差を疑うことも超母集団アプローチを採用する理由になりうる (それが問いに対して適切な方法なのかは個別の問題しだい).

加えて超母集団を理解してもらう難しさについて, 既に紹介した Gelman のブログの読者, Jake と doug からのコメントが正鵠を射ているように思える. 以下は私の訳.

Jake:

(前略) どちらの流儀を選ぶかは実態, 標本設計, データ, そして分析の目的次第です. しかし良いことに, 統計的推測はデータがはっきりした母集団からはっきり定義された方法で標本抽出されたものでなかったとしても, 実行可能で正当なものになりえます.

doug:

問題は標本調査の文脈での回帰モデルのパラメータの見方にあります. (中略) モデルを想定しないからと標本設計ありきのアプローチを好む人たちがいますが, 回帰モデルのパラメータの定義は恣意的 (なぜ (最小二乗法ではなく) LAD やその他の推定を母集団に適用しなかったのか?) であり, パラメータをどう解釈するかも明確ではありません. 一方で, 超母集団モデルはいささか説明が億劫になります (例えば, 「仮説上では存在する州の母集団から標本抽出するのを想像しなさい」とか). 問題はランダム性がサンプリングによってのみ発生する, と考えられているのが原因だと私は思います (これは Jake のコメントに強く反発する多くの標本主義学者の共通認識です). しかし, あなたが内心で何らかのモデルを設定していないかぎり回帰係数を推定すべきではありませんし, 筋の通ったモデルはいつもこのような「悪名高い誤差項」を含むものです.

なお省略した部分は, 既に説明したような有限母集団では標本抽出以外に確率的な現象を一切認めないという前提の説明に費やされている それが何を意味しているのかも考えずあるフレームワークならどういう問題でもどういう目的でもうまくいくと, 仮定が少ないほうが良い, と安直に考える態度が問題ということだろう, そうなると最小二乗法を使おうが, LAD を使おうが, あるいは交差検証やAICを計算したから正しいモデルだ, という主張もなんら意味をなさない. 逆に言えば, 限られた状況では有限母集団の考え方でも十分である (前提について注意を払わないのなら, 標本設計至上主義だろうがそうでなかろうが同ことである).

超母集団アプローチに関する話のまとめ
  • 有限母集団でありながら確率的なゆらぎがあるという立場を超母集団アプローチと呼ぶ

  • 超母集団アプローチに則するなら, たとえ全数調査でも結果のランダム性が存在する

  • 超母集団アプローチは有限標本理論で無視されていた非標本誤差にも整合する理論である

  • しかし超母集団アプローチは「現実的でない」仮定に見え, 納得しがたい

母集団と幻想のフリクエンティズム

次に, 超母集団アプローチの仮定が現実的でないという批判 (藁人形論法?) に対して, 頻度主義的な統計学の枠組みの方こそ有限母集団に適用すると理論矛盾を生じることを紹介する. すでに書いたように, 従来の統計学の教科書の多く無限母集団を暗に仮定しており, 有限母集団アプローチに同じような手法を持ち込むと矛盾を生じる*8*9.

すでにK仮説の説明の際に有限母集団には漸近理論を厳密に適用することはできないと書いた. そしてまた別の問題として, 美添 (2000b)が言うように (Rao, Hartley, and Cochran (1962), Godambe (1966)がより正確な議論をしている) 有限標本理論では尤度関数を定義できないというものがある. 母集団から(非復元)単純無作為抽出で  n 個を取り出した場合, 各個体が抽出される確率は一律 \binom{N}{n}^{-1}となる. しかし, 個別の値は定数のため確率密度が存在しないから, その同時確率は標本設計にのみ依存する.


 \begin{align}
p(x_{1},\cdots,x_{n}\mid\mu,\sigma^{2})= & \binom{N}{n}^{-1}\prod_{i=1}^{N}1\{i\in\{1,\cdots,n\}\}\end{align}
この関数は  \mu \sigma^{2} も全く反映しないため, 尤度関数として意味をなさず最尤推定量を求めることができない.

しかし「『有限』母集団なのでサンプルサイズを『無限大』に飛ばす漸近理論は適用できない」「尤度関数が定義できない」という話だけでは単なる言いがかりっぽく聞こえて, 批判の本質がわかりにくいかもしれない. 実際, 有限標本理論では, 一致性ではなく不偏推定であることが正当さの根拠とされている. では, 有限標本理論は本当に不偏推定ができているのだろうか?

不偏推定という考え方の問題を端的に表す具体例を提示しよう — これは以前インターネットのどこかで見た小咄を元にしたものだが — 今, あなたは繁盛している酒場にいて, 客の一人一人から年収を聞き出して客の平均収入を知ろうとしているとする. 若い労働者, 中間管理職, 学生, 失業者・・・, 全員ではないが, 十分な数の客が答えてくれたので, その平均値から平均値を計算し平均収入を見積もった (既に書いたように回答拒否する人間や正直に答えない人間もいるかもしれないが, とりあえずここでは質問すれば真面目に答えてくれるものとする). これはまさに有限標本理論に基づいた推測である. しかしそのときたまたま, トイレにビル・ゲイツ*10がいて, 彼に質問しそびれたとしたらどうだろうか? この標本平均は酒場にいる全員の平均年収に対してどれだけ正確だろうか?

この例だと単なる「外れ値の問題」と間違えられそうなので, さらに美添 (1994)が言及している例を挙げよう. ある企業は大阪と東京に工場を持っていて, 製造される商品の品質検査をしようしている. まず大阪工場で十分な数の抜き取り検査 (全数検査でもよい) を行い, 不良品率がとても低く, 工場は高品質な商品を提供できていることがわかった. 大阪工場の調査結果だけで東京工場の不良品率も同様に低いと言えるだろうか?

この例に対してあなたは「大阪と東京は母集団が違うのだから間違っている, そんなこともわからないのか」 と反論するかもしれない. では逆に問うが, 母集団をそのように定義する根拠が, あなたの信念以外のどこにあるのだろうか? 逆にもっと細かく, 工場内のラインごととか, 作られた時間ごととか, もっと条件ごとに際限なく細かく母集団を分けないのはなぜだろうか?

美添 (1994)はさらに有限標本理論の問題点を深く追及している. 詳しくはそちらを, と言いたいところだが, 最近の情勢ではこの文献を一般人がアクセスするのは少し大変である—大学にコネクションのある人間ならばこのような議論も抑えていることだろうが— ということで, 指摘を要約して書いておく.

美添 (1994) の問題提起1: 2つの箱の問題

まず, 2つだけの標本しか持たない有限母集団という, 非常に単純化した問題を考える.

重さの違う2つの箱  A,Bがあり, それぞれの重さは \mu_{A},\mu_{B}である. どちらか一方しか重さを測れないとき, 両方を不偏推定する方法を考える. それぞれの測定値を  x_{A},x_{B}として, 表裏が等確率で出るコインを投げ, 表なら  \tilde{\mu}_{A}=2x_{A},\tilde{\mu}_{B}=0, 裏なら  \tilde{\mu}_{A}=0,\tilde{\mu}_{B}=2x_{B}を推定値とする. これは不偏推定と言えるか, またこの推定方法が適切か論じよ.

不偏推定であるのは自明なので説明を省略する. これを2つの個体でなくサイズ Nの有限母集団から n個のサンプリングをするという話に拡張すると, 「ビル・ゲイツ問題」や「工場問題」と同じ状況になる. このように N=2,  n=1にするとより違和感がはっきりする: これは確かに不偏推定だが, 片方の情報が全くないときにも片方の情報だけで推定することは意味のあることなのか.

これだけだとどこが問題なのか分かりにくいかも知れないから, さらに追加の情報を与えてみよう. 2つの箱では見た目からなんとなく両者の重さにあまり差がないのではないか, と先入観が働きそうである. しかし既に書いたように有限標本理論では各個体は定数であり, 仮定のうえでは同一の分布に従うわけではない. よって, 片方の箱は空で, 片方には金塊か, さもなくば未発見の大質量物質が詰まっている可能性も考慮せねばならない. 「工場問題」も同様だ. 「同じ工場で作られたのなら, 性質は似通ったものになるだろう」という先入観が推測に入り込んでしまっているのだ. これでもまだ, この不偏推定が意味のある推測だとあなたは言い切れるだろうか?

美添 (1994) の問題提起2: より厳密な説明

この問題を数式をつかいもう少し厳密に説明する. 有限標本理論では確率的な要素はランダムサンプリングだけである. そこで, 大きさ Nの有限母集団  X:=\{x_{1},\cdots,x_{N}\} から, 大きさ nの標本を取り出す. 標本を, 個体番号  1,\cdots,N から取り出した n個の集合  s:=\{s_{1},\cdots,s_{n}\} で表し, 対応する標本を  x_{s}=\{x_{s_{1}},x_{s_{2}},\cdots x_{s_{n}}\} と表す(図 1).

図 1: 有限母集団と標本選択
f:id:ill-identified:20201021183920p:plain

復元抽出を想定すると*11, 各個体が選ばれる数は確率変数なので, これを \{w_{1},\cdots,w_{N}\}と表す. つまり,  w_{i}は以下のようになる.
 \begin{align}
w_{i}:= & \sum_{j=1}^{n}I\{s_{j}=i\}\end{align}
求めたいのはオーソドックスに母平均, 母分散とする. つまり有限母集団なので  \mu_{N}:=N^{-1}\sum_{i=1}^{N}x_{i} \sigma_{N}^{2}:=N^{-1}\sum_{i=1}^{N}(x_{i}-\mu_{N}) を適切に推測したいとする.  w_{i}を使って標本平均  \bar{x}_{s} を表現できる.
 \begin{align}
\bar{x}_{s}= & \frac{1}{n}\sum_{i=1}^{n}w_{i}x_{i}\end{align}

つまり,  w_{i}は平均の重みのような意味合いを持つ. この設定に基づくと, 以下のようになる (さすがに途中の式変形も全部転記したくはないので自分で確認するか元論文を見てほしい. それに著作権は尊重すべきだ).
 \begin{align}
\mathrm{E}(\bar{y})= & \frac{1}{n}\sum_{i=1}^{N}\mathrm{E}(w_{i})x_{i}\end{align}
さらに  w_{i} は多項分布であることから \mathrm{E}(w_{i})=n/Nとなる. よって, 期待値と分散がわかる(非復元の場合は \frac{N-n}{n(N-1)}\sigma_{N}^{2}).
 \begin{align}
\mathrm{E}(\bar{x})= & \mu_{N},\\
\mathrm{V}(\bar{x})= & \frac{1}{n}\sigma_{N}^{2}\end{align}
これがおそらく有限標本理論での典型的な導出過程で, 先ほど出したいくつかの例題にも当てはまる. 問題はここからだ. 単純無作為抽出ならそれぞれの標本が選ばれる確率は等しいから,  p=\mathrm{P}(s_{i}=i\mid x_{s})と書く. すると,  x_{s} を所与としたときの標本平均の条件期待値は,
 \begin{align}
\mathrm{E}(\bar{x}_{s}\mid x_{s})= & px_{s_{1}}+px_{s_{2}}+\cdots+px_{s_{n}}=\mu_{N}\end{align}
となる. 数式を使って少し遠回りな言い方をしたが, 無作為抽出さえできていれば不偏推定になる, というのが有限標本理論の要点だ.

しかし, 選ばれた標本  s は無作為抽出によって決まり,  X とは無関係なはずである. つまり  s補助統計量 (ancillary statistics) なので, 条件性の原理に則するなら  sも条件に加えた期待値が本来推定しているものだった.
 \mathrm{E}(\bar{x}_{s}\mid s,\mu)=\frac{1}{n}\sum_{j=1}^{n}x_{s_{j}}=\bar{x}_{s}\neq\mu_{N}

以上から, 標本平均を推測に使うのは実は統計推測のルールに反しており, ルールを守るなら不偏推定になっていないという指摘がある.

ここで「補助統計量」と「条件性の原理」いうあまり聞かない単語が登場した. 補助統計量とは分布が母数に直接依存しない統計量のことであり, 「補助統計量が存在する時, 未知の母数 \thetaの推論に際して, 補助統計量の値が与えられたときの条件分布を利用すべきである」というのが条件性の原理である. 補助統計量も条件性の原理も多くの (少なくとも日本語の) 統計学の教科書ではっきりと説明されることはないが, これらの統計学の教科書で暗黙のうちに守られていることの多い原理である.

例えば回帰分析においては, 説明変数が補助統計量に相当する. 以下のような単回帰 (もちろん重回帰でも同様) モデルがあるとして,
 \begin{align}
y_{i}= & \alpha+\beta x_{i}+\varepsilon_{i}\end{align}
最小二乗法を使って求められるのは y_{i}の条件期待値関数 (CEF) は以下のようになる.
 \begin{align}
\mathrm{E}(y_{i}\mid x;\alpha,\beta)= & \alpha+\beta x_{i}\end{align}
CEFから予測値を求められる. 通常の回帰分析では, 説明変数は回帰係数  \alpha,\beta に依存しないという前提だから説明変数は補助統計量である. 条件性の原理に従えば, 説明変数で条件付けた y_{i}の期待値や分布を求めなければならないし, 実際説明変数抜きでは回帰分析はできない.

さらに理論をより一般化すると, 有限標本理論は「強い尤度原理」を否定しているが, 「条件性の原理」と「弱い尤度原理 (十分性の原理)」は認めている. しかしこれらを同時に認めた場合, 必然的に強い尤度原理も成立してしまうことが有限標本理論の矛盾の原因であると, 美添 (1994)は Birnbaum を引用して指摘している*12.

以上が, 有限標本理論そのものが持つ矛盾である. これらの議論は理論を一般化した際の整合性に関するものであり, 既存の定型の問題の多くは, 頻度主義の時代に定められたプロトロコルに従って計算するだけなら (安易に他の問題に類推適用することはできないが) 問題ない — 理論分析はとても重要だが, 問題に対して新しい含意を特に生み出さないのに過度に複雑・抽象的にしただけで優越感に浸るのは単なる衒学趣味にしかならないだろう.

このサブセクションでのまとめ
  • 有限母集団では標本が母集団に対し十分小さい場合にしか漸近理論を適用できない

  • 有限標本理論は主に不偏推定であることを正当さの根拠としている

  • しかし不偏推定であることと, 有限標本理論の原理には矛盾が生じる

超母集団アプローチのベイジアン的解釈

R-wakalangでの質問に対しては以上が回答になる. だが既に書いたように, 「野口・島田命題」は非標本誤差のない有限母集団で, という前提で正しい. しかし現実には非標本誤差, 特に測定誤差がないと言えるような状況はかなり限られている. さらに, 超母集団アプローチはなんとなく納得しがたく, 一方で有限標本理論には矛盾があるということも書いた. そこで最後に, ベイズ統計的なアプローチならば有限標本理論のような矛盾なく有限母集団に対する推測ができることを説明する.

美添 (2000b)は, 超母集団アプローチを超母数 (ハイパーパラメータ) を持つ分布の言い換えともとれることを指摘している. 超母集団がなにかの分布, 例えば正規分布  \mathcal{N}(\mu_{X},\sigma_{X}^{2}) から  N 個の個体を持つ有限母集団 Xを与えていると仮定すると,  X=(x_{1},\cdots,x_{N}) の全数調査であっても確率的なゆらぎに対する推測が必要になる. この仮定では, 平均はともかく*13標準誤差や標準偏差は標本からの単純計算では正しく推測できないし, 全数調査であっても推測が必要である. 意図してかせずか, 超母集団アプローチは頻度主義的な有限標本理論から外れ, ベイジアン (ベイズ統計) 的なフレームワークに入り込んでいることになる.

超母集団アプローチをベイズ統計の一種とみなすのなら, 具体的にどのように有限母集団にベイズ統計を適用できるのか? 美添 (1994) および Gelman, A. et al. (2013) の8章, そしてRoderick Little の講義スライドの記述*14を参考に「超母集団ベイズモデル*15を説明する.

ベイズ統計の理論的基礎づけ

まずは前節の有限標本理論の問題点を掘り下げて, どこを直せば推測ができるのかを説明する. 有限標本理論では標本の値は定数だから確率は存在しない (数学的に厳密な言葉を選ぶなら退化分布/一点分布である) ため, 尤度関数も以下のように最尤推定として意味をなさないものになる. これは前節でも触れたとおりで, 前節では単純無作為抽出を想定していたので標本設計の確率分布は  p(s)=\binom{N}{n}^{-1}1\{x\in x_{s}\} となっていた.
 \begin{align}
p(x_{i}\mid x_{s})= & \begin{cases}
p(s) & \text{if }x\in x_{s}\\
0 & \text{otherwise}
\end{cases}\end{align}

ベイズ統計や超母集団アプローチではパラメータの分布や測定誤差を想定することが多く, このような仮定をおくことはまずないが, 退化分布も確率分布の1つである. まずは有限標本理論と同じ土俵に立って尤度が退化分布である場合にどうなるかを再検討する. まず, 事後分布は事前分布  \pi(\mu) を使って以下のように表現できる (分散パラメータの表記は省略する).


 \begin{align}
p(\mu\mid s,x_{s})\propto & p(x_{s}\mid\mu,s)p(s\mid\mu)\pi(\mu)\\
\propto & 1\{x\in x_{s}\}p(s\mid\mu)\pi(\mu)\end{align}

2行目の式変形は無作為抽出であることに基づく. ここで, 有限標本理論ではないがしろにされていた補助統計量としての標本設計の条件分布  p(s\mid\mu) が現れていることに注意する. この式から, 一見すると尤度が推測の用をなさなくとも標本設計と事前分布が適切であればベイズ推測が成立してしまいそうに見える. さらに実際に完全に無作為抽出できているなら母平均  \mu と選ばれた標本  s は無関係だから, 事後分布は完全に事前分布  \pi(\mu) に比例することになるから,「データではなく事前分布という主観に依存した推測」をしてしまっているように見えるが, 読み取るべきはそこではない. むしろ事前分布に一様分布を指定した場合, 実質的に有限標本理論の最尤推定と同じになり, 同様に意味のある推測はできなくなる. この結果は「2つの箱問題」「ビル・ゲイツ問題」「工場問題」に見られるように, 有限標本理論が標本に何の分布も仮定していないために, 先入観に対してニュートラルな推測になるどころか逆に不偏推定の妥当性を失ってしまうことを表していると言える.

つまりベイズ統計は, 「データドリブンではなく先入観の入り込んだ恣意的な分析」ではなく, 「データドリブンな分析というのは思い込みにすぎず, 我々の分析には必ず何らかの形で先入観が入り込んでいると教えてくれる」ものであり, そしてその主観がどのような形で推論に影響しているかを数式で明確にしてくれる推測方法である*16.

以上から, 有限母集団に対してベイズ推測する際に欠かせない要素がいくつか見つかった.

  • 尤度が退化していると推測が難しい

  • 事前分布は有限標本理論と実質同じな無情報でもいい

  • 標本の無作為抽出は有限標本理論と同様に重要

よって, 超母集団アプローチならば  Xに分布を仮定するため, この問題をクリアできそうである. しかし, まだ超母集団やベイズ統計に忌避感を持っていて「パラレルワールドなんて小説の読みすぎだ」「事前分布なんてとんでもない!」などと考える人がいるかもしれない. そのため, ごく単純なケースから徐々に説明していく. まずは  \{x_{i}\} が0か1のどちらかというケース.

ベルヌーイ分布の場合

Roderick Little の講義スライドの例題を紹介する. これはインドの家庭での通信機器普及率に関するものである. インドではラジオやテレビなどの受信機器を持つ家庭は通信料を払わなければならないが, 人口密集地のあばら家に住む人たちの多くは払っていないし, そのような地域では実態を調査するのも難しい. そこでこのような家庭での普及率を推論するにはどうすればいいか, という問題を考える. これを超母集団アプローチとベイズ統計の問題に置き換えると, 有限母集団  X:=\{x_{1},\cdots,x_{N}\} の要素はそれぞれ  0,1 の2値(=通信機器の有無)とする. よって母平均  \mu は0-1の間に存在し,  x_{i} はそれぞれ独立に*17パラメータ  \muベルヌーイ分布に従うと仮定する(超母集団や事前分布に不信感を持っている人でも, 「 \mu は必ず0-1の範囲にある」ということには同意いただけると思う). 簡単のため  X のうち最初の n個を標本として,  x_{s}:=\{x_{1},\cdots,x_{n}\} とし, 標本に選ばれなかった残りの  N-n 個の集合を  x_{c}:=\{x_{n+1},\cdots,x_{N}\} と書く. さらに, それぞれの  x_{i}=1 の数を  \sharp x_{s},\sharp x_{c} と書く (ただし  \bar{x}_{c} は未知である).
 \begin{align}
\sharp x_{s}:= & \sum_{i\in s}x_{i},\\
\sharp x_{c}:= & \sum_{i\in s^{c}}x_{i},\\
\therefore\bar{x}= & \frac{\sharp x_{s}+\sharp x_{c}}{N}\end{align}

すると, それぞれの平均  \bar{x}_{s},\bar{x}_{c} は以下のように書ける.
 \begin{align}
\bar{x}_{s}= & \sharp x_{s}/n,\\
\bar{x}_{c}= & \sharp x_{c}/(N-n)\end{align}

2つのカウントの条件分布はいずれも二項分布になる.
 \begin{align}
\sharp x_{s}\mid\mu,s\sim & \mathit{Bin}(n,\mu)\\
\sharp x_{c}\mid\mu,s\sim & \mathit{Bin}(N-n,\mu)\end{align}

次に標本設計と  \mu の事前分布を決める必要がある. 有限標本理論と条件をなるべく近づけるため, 無作為抽出, 一様事前分布とする. これは無情報事前分布でもある.
 \begin{align}
\pi(\mu):= & 1,\mu\in]0,1[\end{align}
すると,  \mu の事後分布は以下のようになる. ところで既に書いたように  s が影響するのは  p(s\mid\mu) の部分なので, 無作為抽出を想定している以降は特に強調したい場合を除き, 条件としての表記を省略する.
 \begin{align}
p(\mu\mid x_{s})= & \frac{p(\sharp x_{s}\mid\mu)\pi(\mu)}{\int p(\sharp x_{s}\mid\mu)\pi(\mu)d\mu}\\
= & \frac{\binom{n}{\sharp x_{s}}\mu^{\sharp x_{s}}(1-\mu)^{n-\sharp x_{s}}}{\int\binom{n}{\sharp x_{s}}\mu^{\sharp x_{s}}(1-\mu)^{n-\sharp x_{s}}d\mu}\\
\propto & \mu^{(\sharp x_{s}+1)-1}(1-\mu)^{(n-\sharp x_{s}+1)-1}\end{align}

この事後分布はパラメータが  (\sharp x_{s}+1,n-\sharp x_{s}+1)ベータ分布に等しい. よって標本の情報に基づいた母平均の条件期待値は以下の通り*18.


 \begin{align}
\mathrm{E}(\mu\mid x_{s})= & \frac{\sharp x_{s}+1}{n+2}\end{align}

そして超母集団ベイズモデルでは母平均  \mu母集団平均  \bar{x}=N^{-1}\sum_{i=1}^{N}x_{i} は同じではないので,  \bar{x} を推測するならさらに別の計算が必要である. 標本平均  \bar{x}_{s}=\sharp x_{s}/n と, 事後分布に基づいて評価した上記のパラメータの期待値をつかって母集団平均を以下のように推測できる.
 \begin{align}
\mathrm{E}\left[\bar{x}\mid s,x_{s}\right]= & \mathrm{E}\left[\frac{1}{N}(\sharp x_{s}+\sharp x_{c})\mid s,x_{s}\right]\\
= & \frac{n}{N}\bar{x}_{s}+\frac{1}{N}\mathrm{E}\left[\sharp x_{c}\mid s,x_{s}\right]\\
= & \frac{n}{N}\bar{x}_{s}+\frac{N-n}{N}\mathrm{E}(\mu\mid s,x_{s})\\
= & \frac{n}{N}\bar{x}_{s}+\frac{(N-n)}{N}\frac{\sharp x_{s}+1}{n+2}\\
= & \frac{(N+2)\sharp x_{s}+N-n}{N(n+2)}\end{align}
ところで標本カバー率は  f=n/Nだから, 以下のように, 標本として取得できた部分と未観測の部分のカバー率による重み平均で母集団平均を表現できる.
 \begin{align}
\mathrm{E}(\bar{x}\mid s,x_{s})= & f\bar{x}_{s}+(1-f)\mathrm{E}(\bar{x}_{c}\mid s,x_{s})\end{align}

これで標本  x_{s} と補助統計量である標本選択  s を所与とした母集団平均の条件期待値が, 標本として観測できた部分と観測できなかった部分に分かれた. これは前節で紹介した「2つの箱問題」と同じ状況である.

なお, ベイズ統計ができるのはこのように期待値だけを求めることではない—これはあくまで有限標本理論との比較をしやすくするために導出したものだ. 上記の式変形からわかるように,  x_{s}を条件付けて  \bar{x} の予測をするだけでなく, 未知の  x_{c} に含まれる個体1つ1つに対する予測を立てることができる. つまり事後予測分布  p(x_{c}\mid x_{s}) を求めることができる.

このベルヌーイ分布を仮定したベイズ推測の場合では, 明らかに母平均も母集団の平均も標本平均と一致しない*19. これは直感に反しているように見えるが, 数理的な性質で言うと, 少なくとも許容性*20を持つ推測であるし, 有限標本理論と違い理論上の矛盾がない.

より一般的な場合

 X が0か1かではなく, もっと広い意味で数値を取る時, たとえば  X_{i}\sim\mathrm{iid}\mathcal{N}(\mu,1) とした場合を考える (分散も未知である場合が多いが, 余計な計算があるので手抜き). ここでもやはり, 事前分布は無情報なもの, たとえば  \pi(\mu)\propto1 とする. この事前分布も確率密度が一様だから, やはり正規分布を仮定する以外は有限標本理論の設定に限りなく近い. よって, ベルヌーイ分布の場合と同じように母集団の平均を推測するには以下の式から出発できる.
 \begin{align}
\bar{x}_{s}\mid\mu,\sigma,s\sim & \mathcal{N}(\bar{x}_{s},1/n),\\
\bar{x}_{c}\mid\mu,\sigma,s\sim & \mathcal{N}(\bar{x}_{c},1/(N-n))\end{align}

 \begin{align}
p(\mu\mid x_{s})= & \frac{p(\bar{x}_{s}\mid\mu)\pi(\mu)}{\int p(\bar{x}_{s}\mid\mu)\pi(\mu)d\mu}\\
\therefore\mu\mid x_{s}\sim & \mathcal{N}(\bar{x}_{s},1/n)\end{align}

 \begin{align}
\therefore\mathrm{E}(\bar{x}\mid x_{s})= & \mathrm{E}\left[\frac{1}{N}\sum_{i=1}^{N}x_{i}\mid x_{s}\right]\\
= & \frac{1}{N}\sum_{i\in s}x_{i}+\frac{1}{N}\mathrm{E}\left(\sum_{i\in s^{c}}x_{i}\mid x_{s}\right)\\
= & \frac{n}{N}\bar{x}_{s}+\frac{N-n}{N}\mathrm{E}(\bar{x}_{c}\mid x_{s})\\
= & f\bar{x}_{s}+(1-f)\mathrm{E}(\mu\mid x_{s})\\
= & \bar{x}_{s}\end{align}
よって, このカバー率による重み平均は一般に成り立つこと, 正規分布に限って言えば条件期待値が標本平均となることが分かった. この結果だけを切り取ると, 有限標本理論に基づいていても, 観測誤差と称して確率分布を盛り込むのならここで紹介した超母集団ベイズモデルと実質的に同じ推測結果にたどり着く. 例えば回帰分析を従来どおりに最小二乗法で計算しただけのものも超母集団ベイズモデルになりうる. しかしこの推測方法はサンプルサイズに関係なく常に適用できる. つまり全数調査ならば  \bar{x}=\bar{x}_{s} になるため母集団平均にはもはやばらつきは存在しないものの, 母平均が別に存在するため「推測」は常に必要となる. このように, 有限母集団に対して適用した超母集団ベイズモデルは無限母集団でのベイズ統計モデルとそっくりである.

そしてその推測をどう解釈するかにおいて, ベイズ統計理論は有限標本理論より優れる. 既に書いたように不偏推定に関する矛盾は解消されているし, 分析者が暗黙のうちにおいた仮定や, 取得したデータの制約が推測にどう影響しているかも明確になる. ただしこれ以上の詳しい (実用的な) 話は Gelman, A. et al. (2013) の 8章を読んでほしい.

超母集団ベイズモデルのまとめ
  • 有限母集団の個体が確率分布に従う「超母集団」のアイディアはベイズ統計に則している

  • 有限母集団に対して確率分布を仮定しないと, ベイズ推測はできない

  • 確率分布を測定誤差として扱うなら有限標本理論でも同等の定式化になるが, 理論矛盾は解決しない

  • 超母集団ベイズモデルの文脈では母平均と「母集団の平均」は異なり, 後者は標本平均と母平均の重み平均で推測できる

  • 超母集団ベイズモデルからベイズ統計では有限母集団の推測も無限母集団の場合と同じ形式で扱えることがわかる

ポリア事後予測分布とベイジアンブートストラップ

この話はだいぶ本題から外れてきているが, ついでなので紹介しておこう. ここまでの超母集団ベイズモデルの説明では, 有限母集団の各個体に確率分布を定義しないと最尤推定ができないからしかたなく確率分布をつけた, というふうに見えなくもない. そこで最後に, データの分布 (尤度) とパラメータの分布 (事前分布) を合成して事後分布にして・・・, という, 教科書によく書いてある「形式的なベイズ統計」とは少し違う, ポリア事後 (予測) 分布 (Polya posterior)というアイディアを紹介する. ポリア事後分布を導入すると超母集団アプローチを受容せずにベイズ推測ができてしまうのだ. ポリア事後分布の資料は少ない. 日本語資料に至ってはまったくない. そしてこれらの文献にはみな「詳しい議論は Ghosh and Meeden “Bayesian Methods for Finite Population Sampling” を見ろ」と書かれている. これも私の立場ではちょっと閲覧のハードルが高い*21ので, 関連研究の中で一般公開されているNelson and Meeden (1998, 2006; Lazar, Meeden, and Nelson 2008; Lo 1988; Rubin 1981)の論文の断片的な記述やMartin (2014) の講義資料から読み取ることにした (なのでポリア事後分布の説明だけは他よりも自信がなく, 間違っている可能性がある).

ポリア事後予測分布は, 観測された  x_{s} を元に  x_{c} の予測を立てることから事後予測分布  p(x_{c}\mid x_{s}) を求める. ここは他のベイズ推測と同じだが, それを次のような操作で行う. 「ポリア」事後分布という名前はこの操作が「ポリアの壺問題」と同型だからであり, ポリアが直接考案したわけではない.

  1. 標本 x_{s}から無作為に個体を1つ選び, 値を記録する

  2. (1) を  N-n回繰り返す (つまり x_{s}から N-n回復元抽出する). これらを  x_{p} とする

  3.  x_{p} の値を 観測できなかった  x_{c}の値とみなし, あたかもサイズ Nの有限母集団  X を全数調査できたかのように分布なり統計量 (平均や分散や中央値)なりを計算する

これは代数的に求めることもできるし, 難しいなら字面通りに乱数シミュレーションで計算しても良い.

この方法の意義について考えるため, 再び有限標本での事後分布の基本形に戻ろう.
 \begin{align}
p(\mu\mid s,x_{s}) & \propto p(x_{s}\mid\mu,s)p(s\mid\mu)\pi(\mu)\end{align}

超母集団ベイズモデルの場合は退化分布ではベイズ推測ができないとして母集団の確率分布を仮定したが, ここでは退化してるかどうかすら気にしない. むしろ退化分布のほうがシンプルなのでその前提で話す. 考えるべきは, 標本がどうやって選ばれるかである. 一般に*22, 各  x_{i} は単純無作為抽出で何度も選ばれうるし, もしサンプル内に値の重複があれば, 選ばれる値は等確率とは言えなくなる, という状況を考える必要が出てくる. あるサンプルから重複を排除した部分集合の組み合わせを \mathcal{X}(\cdot) で表し, 以降ではそれぞれ  x^{\prime}\in\mathcal{X}(X),  s^{\prime}\in\mathcal{X}(s),  c^{\prime}\in\mathcal{X}(c) と表す.  s^{\prime}に対応する標本について, 同じ値が選ばれる回数 (重複度) を  \boldsymbol{m}_{s}:=\{m_{s}(1),\cdots,m_{s}(\sharp s^{\prime})\} とすると,  X から  s^{\prime} の組み合わせが選ばれる確率は以下のように  \sharp s^{\prime} 次の多項分布で表現できる.
 \begin{align}
p(s^{\prime}\mid\boldsymbol{\theta})= & \frac{\Gamma(n)}{\prod_{i\in s^{\prime}}\Gamma(m_{s}(i))}\prod_{i\in s^{\prime}}\theta_{i}^{m_{s}(i)},\\
 & \sum\theta_{i}=1\end{align}
さらに, 選択確率  \boldsymbol{\theta}:=\{\theta_{1},\cdots\theta_{\sharp s^{\prime}}\} は確率なので全てゼロ以上かつ  \sum\theta_{i}=1 を満たす必要がある. この \boldsymbol{\theta} に対する無情報な分布としてディリクレ分布を与える. これらには共役性があることが知られている*23ので, 事前分布のパラメータを  \boldsymbol{\alpha}:=\{\alpha_{1},\cdots,\alpha_{\sharp s^{\prime}}\} とすると, 事後分布は  \mathit{Dir}(\boldsymbol{m}_{s}+\boldsymbol{\alpha}) になる.
 \begin{align}
p(\boldsymbol{\theta}\mid s^{\prime})\propto & \prod_{i\in s^{\prime}}\theta_{i}^{m(i)+\alpha_{i}-1}\end{align}
これをもとに事後予測分布  p(c^{\prime}\mid s^{\prime}) を導出すると, ディリクレ多項分布*24になる.

よって, 尤度も特に規定せず, 事前分布に大きな情報を与えずとも, サンプリングの予測分布を求めることができた. しかもそれは, 一見理論的でないくじ引きのような方法と同じなのである. これを元に代数的に評価するか, あるいはそれが難しいならまたは最初に挙げたシミュレーションで推測が可能になることだろう. 加えてここでは有限標本理論に合わせて測定誤差も母分布もない場合で話を進めたが, もちろん測定誤差や超母集団アプローチを考えた確率分布をモデルに含めた場合でも同じことが言える. 計算にデータの尤度を追加して代数的に求めるか, さもなくばモンテカルロ法*25で計算すれば良い.

ポリアの壺問題の説明からも分かるように. ポリア事後分布は最標本化と同じ操作を表している. よって, Rubin (1981) が提案するベイジアンブートストラップ法の一種でもあるとも指摘されている. と, ここでベイジアンブートストラップ法の名前を出したはいいが, これも日本語でちゃんと紹介している情報を見つけられなかった(ネット上の情報はほとんどが英語質問サイトの低品質な自動翻訳ページ. 「カステラ本」*26つまりHastie, Tibshriani, and Friedman (2009)の邦訳8.4章には 「ベイジアンブートストラップ」という呼び名はないものの少しだけ言及がある. Efron and Hastie (2016) にも少しだけ言及があるがあまり詳しくはない) のでついでに書いておく.

従来の (Efron (1979)による) ブートストラップ法は, 単純無作為抽出で標本を複製し, 経験分布を作るというものだったが, Rubin (1981) の提案するベイジアンブートストラップ法は単純無作為抽出ではなく上記ポリア事後分布と同じようにベイズ統計に基づいてサンプリング分布を決めている. つまりここでも頻度主義統計とベイズ統計の違いがそのまま反映されている. ここまでの話から, ベイズ推測は頻度主義統計と違い母集団が有限か無限かで理論的な基礎づけが大きく変わったりはしない. よってポリア事後分布を無限母集団で計算しても問題なさそうである*27. では従来のブートストラップ法とベイジアンブートストラップ法は何が違うのかと言うと, 先ほどのポリア事後分布に現れた  \mathit{Dir}(\boldsymbol{m}_{s}+\boldsymbol{\alpha}) を思い出そう. 無情報事前分布によるベイズ推測はだいたいの場合, 頻度主義的な推測と同じことをしている. ディリクレ事前分布のパラメータ  \boldsymbol{\alpha} が全てゼロなら, 単純な無作為サンプリングと同じになり選択確率はデータの値の重複度のみ影響されるため, 従来のブートストラップ法に一致する. 一方でベイジアンブートストラップでは標本の重複度もまた無作為抽出という確率の産物であることに着目して, そのまま扱ったりはしない. 経験的には両者で大きな差が生まれることはあまりないようであるが, Rubin (1981) が主張するようにサンプルサイズが小さい時のばらつきの大きさで違いが生じると考えられている (おそらくだれかが詳細な実験をしているだろうが, 今回はベイジアンブートストラップ法の話が主題ではないので調べていない). そして逆に考えると, ブートストラップ法で得た分布はベイズ的な事後予測分布の近似になると言える.

ポリア事後分布とベイジアンブートストラップのまとめ
  • ポリア事後分布のアイディアはデータの母分布の仮定を必要としない

  • さらに「主観の入った」事前分布も使わずにベイズ的な事後分布を求められる

  • ベイジアンブートストラップ法は最も仮定の少ないベイズ推測である

  • ベイジアンブートストラップ法はポリア事後分布の一般化と言える

  • ブートストラップ法はベイズ推測の近似と見なせる

つまり, 「事前分布は主観的」「観測データが確率か定数か」はもはや推測への批判として的を外していることがわかった. 流石にもう藁人形論法かもしれないが, まだベイズ統計の考え方に疑問があるとしたら, どの点だろうか.

polyapost パッケージによるシミュレーション

せっかくRの質問チャンネルで提示されたのでRを使った実践的な話もしよう. Rにはポリア事後分布のシミュレーション計算を行う polyapost パッケージなるものが存在する*28. Meeden and Geyer (2020) によるチュートリアルを読めばわかることなのだが, 一応これで試してみよう.  X\sim\mathcal{N}(0,1)で大きさが1000の有限母集団を生成して, その一部のサンプルから超母集団ベイズモデルと, polyapost でのシミュレーションとでそれぞれ母集団の平均と分散を推測してみる. 図 2 がその結果で, ポリア事後分布は 500回の試行をもとにして統計量のヒストグラムを作成し, 超母集団ベイズモデルの場合は正規分布であることまでは分かっているという前提で導出した予測分布の密度関数を重ねている. まず, パラメータの事後分布は以下の通り (これも詳しい導出過程は (Gelman, A. et al. 2013) などを参考に).
 \begin{align}
\mu\mid x_{s},\sigma^{2}\sim & \mathcal{N}(\bar{x}_{s},\sigma^{2}/n),\\
\sigma^{2}\mid x_{s}\sim & \chi^{-2}(n-1,v_{s})\end{align}
ただし,  v_{s}:=(n-1)^{-1}\sum_{i\in s}(x_{i}-\bar{x}_{s})^{2} つまり標本分散で,  \chi^{-2}(n-1,v_{s}) はスケール調整逆カイ二乗分布 (つまり (n-1)v_{s} で割れば自由度  n-1 の逆カイ二乗分布になる) である. そして母集団の平均・分散の事後分布はそれぞれ非標準化t分布 (位置パラメータと尺度パラメータで標準化すれば標準t分布になる) とスケール調整逆カイ二乗分布になる.
 \begin{align}
\bar{x}\mid x_{s}\sim & t_{n-1}(\bar{x}_{s},\sqrt{v_{s}/n}),\\
v\mid x_{s}\sim & \chi^{-2}(n-1,v_{s})\end{align}


2020/10/22: 画像間違えていたので差し替え

図 2: 超母集団ベイズモデル (実線) とポリア事後分布 (ヒストグラム) による推測結果, 真値は破線, 確率密度のスケールを正規化していることに注意
f:id:ill-identified:20201022143919p:plain

2つの方法はいずれもよく似た結果を示している. しかしポリアのほうはサンプルサイズが小さい時, ややばらつきが大きいように見える. これは当たり前のことで, ポリア事後分布は母分布が正規分布であるという仮定に依存せず, 観測データの1点1点の情報しか使用していないためだ (もっと母集団とサンプルサイズを小規模にすればさらにばらつきが目立つし, 大きくすれば中心極限定理から予想できるように収束しやすくなる).

つまりポリア事後分布は「完全にデータドリブンな」推測方法であるのに, 「先入観による」仮定に依存している超母集団ベイズモデルより精度が悪い. しかしこの結果は仮定が (たまたま) 一致したための結果であり, もし全く違う分布で生成された乱数データに正規分布を仮定しても精度の良い推測ができるとは限らない. これは特定化の誤り, misspecification の問題と呼ばれる. これ自体も理解を深める価値のある話だが, 際限がなくなるので今回は書かない. もしあなたがここまでの議論が抽象的すぎていまいち分からないというのであっても, この実例で「先入観/恣意性を廃した分析」「データドリブンな手法」などといわれているものが信頼性のある推測につながるとは限らず, 使い分けが重要であることが理解いただけたと思う.

要約と結論

今回とりあげた誤解の問題は暗黙の前提条件の違いから混乱を引き起こしていたのが原因であった. 当初の質問に対する回答の要約は以下のようになる.

  • 有限母集団非標本誤差やその他の不確実性が存在しない状況で, 母集団外の事象に言及しないのであれば, 「全数調査では推測ではなく要約統計量だけを見るべき」は正しい.

  • 実用的には非標本誤差が存在しないと断言できることは少ないし, 現実に存在する不確実性を統計の問題に落とし込む際によく考える必要がある.

  • 頻度主義の枠組み (有限標本理論) では, 有限母集団で漸近理論が厳密に成り立たず, ごく限られた状況での近似のみ許される

  • 既存の教科書は無限母集団で説明することが多く, 有限母集団との前提の違いに気づかないと勘違いを起こす

さらに有限母集団で確率的なばらつきをどう考えるかという論点を発展させ, 有限標本理論の理論上の矛盾を指摘した上で, その矛盾を解消する方法として超母集団アプローチベイズ統計的解釈とポリア事後分布を紹介した. この過程で, 従来の有限標本理論のどこが問題となっており, ベイズ統計モデルと有限標本理論の差異のどこに問題解決のポイントがあるのかが明らかになった. (2020/10/22 同じ言葉の繰り返しになってたので文言修正)しかし同じ「ベイズ統計的な」方法であってもアプローチの違いで結果は変わってくる. つまりベイズ統計は「常に良い方法である」というよりも, 「どこが悪いか教えてくれる」という利点が強調されるべきだろう.

ここまで, いろいろな前提がいくつもでてきてわかりづらそうなので, あらためて各命題・モデルが課している条件の対応表1 を作った.


表 1: 今回紹介したアイディアと暗黙の前提条件の対応表
無作為抽出 非標本誤差の排除 全数調査 母集団の有限性
島田・野口命題 不要 (自明) 必要 必要 必要
K仮説 必要 不要 不要 一部否定
有限標本理論 必要 不要 不要 必要
(頻度主義的) 無限標本理論 必要 不要 不要 (自明) むしろ否定
(超母集団) ベイズモデル 必要 不要 不要 不要
ポリア事後分布 (or ベイジアンブートストラップ) 必要 不要 不要 不要

この事実を「実務」にどう反映できるか

母集団と全数調査の考え方に関する初学者の疑問に対する回答から本文は始まった. その中で「島田・野口命題」は有限標本理論のなかでも極めて限定された状況でのみ適切な考え方であることを示した. 後半ではその回答に対する範疇を超えて, ベイズ統計の理論を展開し, 従来の有限標本理論の問題点を指摘したうえで, ベイズ推測が有限母集団でも有効であることを説明した. その具体例としては超母集団アプローチやポリア事後分布といった方法論がある. しかし有限標本理論が理論的な整合性に欠けると言っても, 実践の研鑽の中で生まれ非標本誤差の様々な分類からは多くの示唆を得られる. 有限標本理論も ベイズ統計理論も確率を相手取るための知識である. 確率に由来する推測の誤差がどこから発生して, どうすれば誤差を軽減できるのかという思考は常に重要になる.

そしてポリア事後分布のシミュレーションからは, 先入観によらない「データドリブンな分析」が必ずしも効率的でないでないことを実例で示した. 「データドリブン」の考え方の別の落とし穴が存在すると考えている. 答えの分かっていて, しかも有限な実験用のデータであれば, モデルにどの程度誤差があるかは一目瞭然である. 現実の様々なデータ—大抵は過去のものではなく未来のものを含む—は確率的であり, 仮定が正しいのか検証することすら難しい. 推測は予言ではないのだ. 推測を信頼できるものにするには, たんなる「答え合わせ」のスコアである情報量規準やout-of-sampleで計算した誤差以外の観点からの検証も必要になる. 「どんな状況でも常にこれを選んでおけばいい最強のモデル」などナンセンスな考えであり, 実用的にはむしろパフォーマンスが悪いと先入観を持たれている単純なモデルも仮定の正しさの補強として有効である (特にベイズのような複雑な計算が必要な場合は) ということがわかるだろう. 最近 (研究者の間では何十年も前からだが) 流行りの因果推論と呼ばれる介入効果の推定手法は, 標本設計以外のメカニズムを捨象することが特徴である (しかしもちろん, これは表面的な理解にすぎない). また機械学習統計学的に見れば, モデルパラメータの推定の妥当性を考えず, 予測分布の誤差を小さくすることだけを考える方法論と見なせる. どちらも便利だが, 当然ながらこれらにも暗黙の仮定がいくつもあり, いずれもベイズ統計の文脈で定式化できるものが多い. ただ当てはまりがよかったからとか, 実装済みのライブラリでエラーを出さずに計算できたからとかだけで信頼するのは危険である*29.

雑感

今回のR-wakalangの質問者の「K仮説」は有限母集団と無限母集団を混同していたことが誤解の原因の1つかもしれないが, これに似た問題として, 「回帰分析の誤差項は何を意味するのか」というものが挙げられる. 私が昔『科学史から最小二乗法 (回帰分析) を説明してみる』で言及した, 最小二乗法が考案された直後の時代はそもそも母集団という考え方がなかった (少なくともはっきり定式化されていなかった) が, ガウスの著作を見るに今で言う測定誤差として扱われていたのだろう. 現在でも有限母集団を想定するなら測定誤差とみなすことになる. 一方で無限母集団ならばそれ以外の確率的な要因を含むことができる. 私も勉強し始めて間もない頃はこの違和感がなかなか解消しなかった. 有限母集団と無限母集団を区別して書いている計量経済学の教科書はほとんどなく,「母集団モデル」と称して暗黙のうちに無限, もしくは測定誤差のある有限母集団を想定していたためだ.

このような混乱は時代によって少しづつ移り変わってきた統計学の「公理系」を明確にすることが不十分だったから発生したのではないか, というのは個人的な意見だ. 質問者は『統計学入門』(東京大学教養学部統計学教室 1991)で勉強していたという. 確かにこの本は高く評価されているが, とはいえもう30年近く前の本になるため, このようなパラダイムの推移を反映しているとは言えない*30. かと言って新しい教科書もそのような議論を避けているのが現状だ. そもそも「入門」と題した本にそのような高度な議論を求めるべきでないといえばそうなのだが, 自分がやっていることが何なのか分からないままやることほど恐ろしいこともない. 今回の有限標本理論とベイズ統計の比較で見られるように, 理論分析を軽んじて表層的な理解に終わることは間違いなく「実務」での落とし穴になる.

補遺: プログラム

ポリア事後分布と超母集団ベイズモデルの比較は以下のプログラムで行った.

require(tidyverse)
require(ggthemes)
require(polyapost)
require(invgamma)
require(fontregisterer)
font <- get_standard_font()["serif"]

set.seed(42)
N <- 1000
B <- 500
df_normal <- tibble(x = rnorm(n = N))
df_params <- tibble(n = c(50, 100, 300))

df_result <- df_params %>% mutate(i = row_number()) %>% 
  group_by(i) %>% nest() %>% ungroup %>% select(-i) %>% mutate(result = map(data, function(x){
    n <- x$n
    print(n)
    df_normal$s <- c(rep(T, n), rep(F, N - n))
    sv <- filter(df_normal, s) %>% summarise(m = mean(x), v = var(x))
    smean <- sv$m[1]
    svar <- sv$v[1]
    df_normal_polya <- map(1:B, ~tibble(polya = polyap(filter(df_normal, s)$x, N - n), s = c(rep(T, n), rep(F, N - n)), b = .x)) %>% bind_rows
    df_normal_polya_stat <- df_normal_polya %>% group_by(b) %>%
      summarise(Mean = mean(polya), Variance = var(polya), .groups = "drop") %>%
      mutate(model = "Polya") %>% select(-b)
    
    df_normal_supepop <- bind_rows(
      tibble(value = seq(min(df_normal_polya_stat$Mean), max(df_normal_polya_stat$Mean), length = 500)) %>%
        mutate(d = dt((value - smean)/sqrt(svar/n), df = n-1), name = "Mean"),
      tibble(value = seq(min(df_normal_polya_stat$Variance), max(df_normal_polya_stat$Variance), length = 500)) %>%
        mutate(d = dinvchisq(value / ((n-1) * svar), df = n-1), name = "Variance")
    ) %>% group_by(name) %>% mutate(d = (d - min(d)) / (max(d) - min(d))) %>% ungroup %>%
      mutate(model = "SuperPop")
    return(bind_rows(df_normal_polya_stat %>% pivot_longer(cols = c(Mean, Variance)), df_normal_supepop))
  }))
df_result <- df_result %>% unnest_wider(data) %>% unnest(result)

lab <- labeller(
  name = function(x) list("Mean" = "母集団の平均", "Variance" = "母集団の分散")[x],
  n = label_both
)

ggplot(filter(df_result, model == "Polya"), aes(x = value, group = name)) +
  geom_histogram(aes(y = stat(ndensity), fill = name), bins = 30, position = "identity", alpha = .3) +
  geom_line(aes(x = value, y = d, color = name, group = name), data = filter(df_result, model == "SuperPop")) +
  geom_vline(aes(xintercept = true), data = tibble(name = c("Mean", "Variance"),
                                                   true = c(mean(df_normal$x), var(df_normal$x))), linetype = 2, alpha = .5) +
  facet_grid(n ~ name, scales = "free_x", labeller = lab) +
  scale_color_colorblind(guide = F) +
  scale_fill_colorblind(guide = F) +
theme_classic(base_family = font) + theme(axis.title.x = element_blank(),
                        axis.text.y = element_blank(),
                        axis.ticks.y = element_blank(),
                        axis.title.y = element_blank())
ggsave("img/polya-superpop.pdf", dev = cairo_pdf, width = 10, height = 10)
ggsave("img/polya-superpop.png", width = 10, height = 10)

参考文献



*1:美添 (1994)は次のように書いている「L. J. Savage, D. V. Lindley, J. W. Pratt などのように論理的整合性に基づいて事前分布と効用体系の存在を明かし, 統計的決定問題からデータを解析しようという人々から, 単に事前分布あるいはそれに近いものを形式的に用いることにより, いくつかの問題をアド・ホックに解決しようとするだけで, ベイズ流の論理構造を理解しているとは思えないような人々まで, さまざまな『ベイジアン』がいる」たしかに, インターネット上でも, ベイズ統計に関する話題は, 混合効果モデルを計算するための「形式的なベイズ統計」だったり実際にはMCMCの計算とかの技術的な問題であることが多く, もろもろのベイズ統計パッケージのユーザーとしての関心のほとんどはこれらにしかないだろう. しかし頻度主義をスティグマとされるとか, 流行遅れと思われるのが怖くて形式的にベイズ統計を使うだけの人間が増えるのなら, それはきっと良い結果をもたらさない.

*2:ここでは標本不偏分散の計算のように N-1で割っているが,  Nで割るか N-1 で割るかは議論の本筋に影響しない.

*3:私も当初このような前提があることに気づかず無限母集団での考え方と混同していたのでR-wakalangに投稿した回答もやや的を外している. なお, 美添 (2000a)が有限母集団の理論的特徴を説明しており, 資料もアクセスしやすい.

*4:そのため機械学習は無限母集団に近い状況を暗に仮定することが多いのではないかと思う. だがそもそも機械学習の用途に厳密さが求められないことも多い. 単に「全て手作業でやるより効率が良いから」という程度でも使う理由になりうる. もちろんそれはそれで問題ないのだが, 使い方が適切かどうかを知るための理論分析は重要である.

*5:美添 (2000a) が有限母集団で中心極限定理を適用できる前提として n\to\infty,N\to\infty,N-n\to\inftyが必要としているが, 引用している文献を入手することができなかった.

*6:これは既存の用語が思いつかなかったので適当に作った. 普通の統計学の用語として使われるのは「標本の代表性」であり, 違いに注意. このような造語を持ち出した理由は, 以降の一般化した理論分析からわかることだろう.

*7:これに類して, 実際の投票も複数回実施するべきとか, 統計的な推論をすべきとかいう主張を以前見かけたことがある (どういう人物の発言かは忘れた). この問題は今回のテーマとは完全に外れてしまうから詳しく書かないが, 投票結果を統計の問題と捉えた場合, 統計理論のもっと重要な前提が成り立っているのかをまず疑わねばならない. そしてそもそも投票ならば投票が何を目的にしたものなのかを明らかにして問題設定をすべきで, 形式的な統計的妥当性を唯一の基準とするという発想から考え直さねばならない. この問題に興味があるのなら, 「社会的選択理論」について調べると良いだろう. 例えば坂井豊貴『多数決を疑う—社会的選択理論とは何か』(2015, 岩波書店) とか.

*8:ほとんどの書籍・資料はこの事実を指摘していないし, 有限・無限の区別についても言及していないことが多い. そもそも標本調査の説明に多くのページを割いた本を私が持っていないというのもあるが, 有限母集団を前提とした標本調査法と, それ以外の統計理論の応用とで, 住み分けがなされているために両者の比較について詳しい教科書がないようにも思える. Web上の資料も同様である. 例えば私が「有限母集団」検索すると 『有限母集団と無限母集団の意味とその違い 統計学が わかった!』というページが表示された. このサイトの管理責任者が何者なのか不明なのだが (whois でもまともな管理者情報が返ってこない, 連絡先も書かれていない), ここでは無限・有限母集団の形式的な定義の説明にのみ言及し, こういった問題には触れていない. そしてそれ以降の検索結果も同様であった. そもそも冒頭の質問者の要望はこの問題に言及している教科書がほしいというものだったので, もし標本調査法の和書でこの問題を掘り下げている本があればぜひ教えて欲しい.

*9:このセクションで触れる問題いがいにも, James-Stein 推定量の存在が従来の統計学の問題点として語られることが多い. しかしこれは有限母集団に限定した話でもないし, 根本的な矛盾とは少し違うと思うので今回は紹介しない. 日本語の文献では伊庭 (2018)が解説している.

*10:この小咄は何年も前に聞いたものである. 今ならマーク・ザッカーバーグとかジェフ・べゾスとかの名前を出したほうが良いだろう. 年収という表現に引っかかるならサティア・ナディラとかティム・クックとかでもいい.

*11:非復元抽出の場合は共分散の計算が必要になり少しややこしくなるが, 最終的な結果は同じである. また, 有限標本理論であっても測定誤差の存在を想定する理論に拡張することもできるが, これもやはり同様に矛盾が指摘される.

*12:美添はもう1つ, 停止規則の問題を有限標本理論の矛盾として挙げている. 『止め方で結果が変わる?』というページでも同じ問題を扱っているが, こちらの解説ではやや論点がはっきりしない. この記述では暗に美添のいう弱い尤度原理のみに基づいているため, (実用面で) 問題はないように見える. しかし Birnbaum の指摘するように条件性の原理も同時に認めるなら結局強い尤度原理が導かれてしまうため, 2つのやり方で不偏推定量が異なることとの間に矛盾が生じることになる.

*13:もし関心があるのが平均だけというのならこのような議論は不要である, 本当に平均にしか関心がないというなら, それは分析がしたいというより集計をしたいと表現するべきかもしれないが.

*14:ベイズ統計の参考文献について補足しよう. 日本語の文献ではベイズ統計学の名を冠した本はいくつもあるが, ベイズ統計がなぜ良いのかという原理的な問題にも踏み込んだものは少ない. 渡辺 (2012)ベイズ統計の定義がはっきりしている数少ない日本語の教科書の1つだが, 「形式的なベイズ統計」にのみ限定しており, また具体的な問題への応用に関する説明が少ないため今回の話題と方向が違う. PRMLの通称で有名なBishop (2006)ベイズ統計の基本的な考え方は書いてあるが, 残りは「形式的なベイズ統計」のモデルを列挙するカタログとしての傾向が強く, その原理とか含意への言及が少ない. そして有限母集団の話もない. ただし, 正規化定数を無視する, 共役事前分布をつかうといった事後分布の基本的計算テクニックをも知らないのなら読んだほうがいいだろう. さらに私も以前「ベイズ統計とは何なのか」というブログ記事を書いたが, これも今回の問題のヒントになるレベルのものではない (というかこの顔ぶれと同列に扱うようなものではない). 他のベイズを冠した本も, MCMCとかの計算用ライブラリの使い方とがメインだったりで, 今回話すような内容に触れたものはほぼない. Efron and Hastie (2016) は過去の統計学パラダイムの考え方を対比して頻度主義統計学, ベイズ統計学, 機械学習について広く解説するという面白い構成である. これは邦訳が最近出たばかりである. ケチな私は無料ダウンロードできる原著を読んだのみでまだ買っていないが翻(監)訳者の顔ぶれを見るに期待して良いと思う. ただし, 前節で言及したようなベイズ統計の原理の根幹に触れる内容はあまりなく (そもそも本書は抽象化を避ける傾向にある), 有限母集団のベイズ統計での扱いについても言及されていない. 一方で, 有限母集団の推測とは, 観測された標本から残りの観測されていない部分を推測する問題であるため欠損値の推測理論と同型であり, 星野 (2009; 高井, 星野, and 野間 2016) などにおける欠損データ推測問題の定式化が参考になるかも知れない.

*15:これは本文での便宜的な呼び方として私が与えたものであり, 有限母集団に対するベイズ推測の用語として広く普及しているわけではない. しかし有限母集団とベイズ統計を絡めて説明した日本語の資料がなかなか見つからないのでこのような用語を作り出すことにした.

*16:前節で紹介した Jake の「はっきりした母集団からはっきり定義された方法で標本抽出されたものでなかったとしても, 実行可能で正当なものになりうる」や doug の「内心で何らかのモデルを設定していないかぎり」とはこのことを指しているのだと私は考えている.

*17:有限標本理論では定数だったので, 標本設計のみランダムであると書けばよかったが, 今は確率分布を仮定したため, 無作為化に加えて各標本が独立であるかどうかも重要になる.

*18:頻度主義統計とベイズ統計の違いを端的に表した言葉「頻度主義統計ではパラメータを固定して推定量の分布を見るが, ベイズ統計では推定量を固定してパラメータの分布を見る」

*19:ここでは有限母集団を前提としているので, 最尤推定量は定義できない. よって, よくベイズ統計の教科書に書いてあるベータ事後分布の期待値と最尤推定量が一致しない, という話とは少し違う.

*20:よい推定量かどうかを判断する基準の1つ. リスク関数を他の推定方式よりも小さくできるものと定義される. 推定量の良さの基準に関する正確な話は竹村 (1991)あたりが読みやすいが絶版なので一般公開されている久保川 et al. (1993)などで大まかな話を知ってほしい.

*21:関連する先行研究の情報を入手しづらかったというのは, 当初R-wakalangにおいてこの話でブログを書くと宣言してから公開まで時間がかかった理由の1つでもある. 大学 の資料にアクセスできる身分の方はぜひこの本の内容を紹介してほしい. あと私のほしいものリストにも登録されている.

*22:一般ではなく, 超母集団のときのように0と1から始めたほうが数式は簡単で, ベルヌーイ分布とベータ分布で表せる. しかしこれではどうもポリア事後分布の操作をイメージしにくいと思うのでいきなり一般のケースで説明する.

*23:ちゃんとしたベイズ統計の教科書ならだいたいこれらの分布の性質は書いてある. たとえば Bishop (2006) の2章とか

*24:別名, 多変量ポリア分布. 他にもいろいろな別名があるようだ. こういった強い仮定を極力置かないベイズ統計モデル (いわゆるノンパラメトリックベイズモデル) はいろいろな分野で使われるせいか, 数学的に同じ分布にいくつも異なる名前がついているようだ.

*25:例えば回帰モデルをポリア事後分布で計算する場合, だいぶ計算が複雑になるので単純な乱数アルゴリズムでは計算が難しい. このケースは制約 (constrained) ポリア事後分布と呼ばれる(Lazar, Meeden, and Nelson 2008).

*26:以前もどこかで言ったが, この呼び方は誰が始めたのか本当に謎だ. だれか由来や起源を教えてほしい.

*27:母集団サイズが無限大になるためデイリクレ過程を考えることになるが, ここでフォーマルな説明をするのは面倒なのでディリクレ分布からの類推で説明を続ける.

*28:なお, ベイジアンブートストラップ法の計算パッケージとして `bayesboot` というパッケージも存在する. ただし こちらはRネイティブの実装なので多少遅いかも知れない. `polyapost` はごていねいに計算部分をC言語で実装している.

*29:これも私が以前から問題視していたことであるが, しかし以上のような背景があるため「初心者でも誰でもすぐに使える最強の対処法」が存在するなどと矛盾した発言をすることはできない. 時間のかかる作業となるであろう.

*30:しかし私が学生時代に読んだ統計学の入門書は半世紀前のHoel (1971) の邦訳なのでこの選択を悪く言うことはできない. もちろんこの本もここで紹介した「暗黙の前提」についてここまで詳細に記していない.