(お断り) 今回はお役立ち情報というより読み物, あるいは筆者の政治的主張です. 2016/7/18: 「サンプル数」について加筆

母数はパラメータの訳語

確率論・統計学で用いられるパラメータ (parameter) は, 確率分布の特徴を表す値で, 日本語では「母数」と訳される. 例えば正規分布が一番わかり易く, 平均 $\mu$ , 分散 ${\sigma}^2$ が正規分布の母数である. この2つがどんな値であれ (分散が負になるのはダメだが), 密度関数が

${\displaystyle \frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^{2}}{2\sigma^{2}}\right) }$

であるものはすべて正規分布になる. つまり「母数」は分布を特徴付ける数値であり, ここから, 母数は「特性値」と訳されることもある. また, カタカナ書きのパラメータについても表記ゆれがあり,

パラメーター
パラメタ
パラメター

といくつかの派閥に分かれている感がある.

木を見て森を見る

統計学は, 実際のデータから, この分布の母数 (=特性値) を求める方法を構築する学問である. と表現するとわかりにくいかもしれない.

実用面から言えば, 分布の母数を求めるというよりも, 「母数を求めるために確率分布を利用する」と解釈したほうが分かりやすいと思う. そして母数とは, 式に書かれた記号の1つではなく, 膨大なデータの山に埋もれている, 価値のある情報である.

例えば, 日本人の今年の平均年齢はどのようにして求めればいいだろうか? 稲を育てたいが, この稲からどれくらい米を収穫できるだろうか? あるいは, もっと身近な例で言えば, 「夕食の材料をどこの店で買うのが一番安いだろうか」というのもいいかもしれない. いずれの例も, しらみつぶしに調べて回れば, 理屈の上では答えを求められる.

しかし, 国勢調査は5年に一度しか実施されない. 日本国民全員を対象とするため, 毎年やるには手間暇が掛かり過ぎるからである. あるいは稲の1株あたりの籾の数を調べるために, 世界中に存在する苗を調べることができるだろうか. あるいは過去に存在した苗のデータは? 来年植える苗は間違いなく, 今調べることはできない. 買い物に行くたびに複数のスーパーを巡回するのはかなり時間のロスだ.

データの観察は多くの場合, 全てをくまなく観察することはできない. そこで, 統計学は伝統的に全てを観察することが出来ないことを前提に研究が進められてきた. 厳密な話は専門書を読んでほしいが, 観察できない部分に確率分布を利用することで答え, つまり母数を「推定」するのが統計学だ. 統計学は, 全体のごく一部を観察しただけでも, 母数をなるべく正確に推定できる方法を研究してきたと言っていい*1. 統計学では, 観察対象の全体を「母集団」と呼ぶ(統計的な推理をするわけでもないのにデータのカタマリを漠然と「母集団」と呼ぶ人間も多く, ペダンティックに感じる*2.). 母集団の特性を表す数値だから「母数」と訳されたのだろう.

なお, 最近流行している機械学習については, 自分はあまり詳しくはないが, 標本とか母集団といった制約を仮定する統計学的な発想とことなり, どういう制約のある状況でも通用する方法を志向している, という印象を受ける. とはいえ, 機械学習であっても, 多くの観察データから全体の特徴を見分ける手法である点は変わらないから, 機械学習を利用する場合でも, 膨大な情報の中から, 価値のある情報「母数」を求めるという行為は変わらない. その点で機械学習も統計学も同じである.

「母数」は「分母」でも「全数」でもない

さて以上が前置きで, ここからが問題提起になる. 例えば, なにかのイベント参加者の情報を集計する時, 参加者の「総数」とか, あるいはその参加率の「分母」のことを「母数」と言いたがる人を見かける. 先ほど説明したように, 「母数」とは, ある集団の傾向を表す数値なので, イベントの参加者を母集団と考えるなら, ここでの母数とは, 参加者の平均年齢とか, 平均滞在時間とか, 平均利用料金額とかになるだろう. *3

しかし, この例では, 母集団の傾向というより, 母集団に含まれる人数そのものを「母数」と呼んでいるようにしか聞こえない. 母集団に含まれる人の数は, そのまま「母集団のサイズ」と呼ばれる*4. サンプルに含まれる人数ならば「サンプルサイズ」だ. 「母集団に含まれる個の数」と「母集団の傾向を表す数値」は別の概念だ. さらにおかしなことは, こういう用法を口にしたのが, 就職活動中にいくつか見て回ったマーケティング企業の人間からだった, ということだ*5. もしかしてマーケティング業界では, 「母数」にそういう用法があるのか, と調べてみたが, そのような話は見つからず, むしろマーケティング業界の人間もこの用法を否定している例を見つけた

「母数」と「サンプル数」の本来の意味は？

一方, 「パラメータ」がこのような文脈で使われているのは聞いたことが無いため, 「母数」の意味を正しく理解しておらず, 調べることもせず, 語感だけで自分勝手に意味を与えて使っているのでは, と自分は疑っている.

定量的な分析の専門家であるはずのマーケティング関係者が, 基本的な用語を使い間違える, というのは不自然だ. 職業人ならば, 専門用語の雑な使い方をするのは相手に対して誠実でないと感じる. もちろん専門家でない場合でも, よく理解していない用語をいい加減に使うのは不誠実だし, 恥をかく危険もある.

補論:「サンプル数」と「サンプルサイズ」

sample size の訳語は一般に「サンプルサイズ」であり, 「標本の大きさ」を表す概念である. これを「サンプル数」と呼ぶ人を時々見かけるが, 単なる言い間違いであり別の概念と混同させてしまう「母数」問題に比べれば害の少ない問題だと, これまで自分は考えていた. しかし, 堀 (2010) によると, これも意外と無視できない混同が存在することがわかった.まずこれを引用する*6.

母集団から大きさ75の標本（サンプル）を10個抽出するとする。すると、10個のサンプルができることになる。この10という数字のことをウィルクスは「サンプルの数」と呼んでいるが、これが「サンプル数」である。つまり、母集団からの抽出回数である。75という数のことを「サンプル数」としている研究が驚くほど多いが、これは誤りで、正しくは10という数字が「サンプル数」である。

つまり, 「標本」とは母集団から抜き出してきた個々のデータの集合を指しており, その集合の大きさ (基数) だから「サンプルサイズ」と呼ばれるのである.

そして, 「サンプル (の) 数」は集合である標本を母集団から抽出した回数を指して表現するので, これも母数問題と同様に別概念の混同だったのだ.

経済学の実証研究だと, 政府や中央銀行の発表する (時系列) データやクロスセクションのアンケート調査 (国勢調査その他) などを使うケースが多いので, 標本を複数回抽出することがイメージしにくいかもしれないが, ブートストラップ法を思い出して欲しい. これは複数の標本を作り出すことで, 擬似的に標本抽出を繰り返している*7.

2016/7/18 加筆 機械学習の文脈では, 1つ1つの値 (の組) のことをサンプルといい, その集合をデータと呼ぶことが一般的なようだ.そしてデータに含まれる要素の数を指して「サンプル数」と呼んだりする. 機械学習と統計学の手法はどんどん境界が曖昧になってきているので,「母数」と違って「サンプル数」は決定的な誤りとはいえなさそうだ. ただ, 「サンプル数」がサンプルの要素の数を指すのか, ブートストラップ法のようにサンプルが複数存在して, 集合の数を言っているのかということはやはり明確にする必要がある.