ill-identified diary

所属組織の見解などとは一切関係なく小難しい話しかしません

統計学

Rubin が「ベイジアンブートストラップ」を通して言いたかったこと

概要 Rubin の 1981年の “The Bayesian Bootstrap” とそれに関連する話の認識共有 以前の投稿でいまいちはっきりしない書き方をしたのでその訂正的な意味合いもある 正直なところ「役に立つ」系の話ではないし 「なるほど」系の話でもない やっぱり BB 自体…

「機械学習とビジネスを橋渡しするものこそ評価指標であり, "全てのビジネスは条件付期待値の最大化問題として書ける"」という話の問題点と代替案

収益最大化を条件付き期待値の最大化問題と考えたときにどういう問題が発生するかと, その解決方法についての空想

互いに独立でなくてもできる中心極限定理と, そのデモ (Gordin's CLT/Donsker定理)

Lindeberg-Lévy中心極限定理以外のデモもやろう

[R][初心者の質問] mice で多重代入法の結果を統合できない時の対処法

R の mice パッケージの pool 関数がうまく使えない人への回答

「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 -

全数調査 --- 全てのデータを取得できれば統計分析は必要ない, 全てのログデータを使えば機械学習は完全にうまく行く... それらは全て誤りである. 母集団の考え方は意外と教科書でもはっきりと教えていないので, 新しい視点で説明してみた

[小ネタ] [R] randomForest::MDSplot() を ggplot2 で書き直す

randomForest::MDSplot() が `ggplot2` で描かれたグラフじゃないのは不便なので作った.

[R] dplyr 1.0.0 時代の時系列データ処理 — 特に移動集計 —

dplyr (tidyverse) の時代に合った新しい時系列データ処理用パッケージをいろいろ比較した結果……へのリンク

計量経済学と機械学習の関係 –AI はさだめ, さだめは反事実 (転送用)

第80回Tokyo.Rの発表の補足として書かれた長文

[R] 飯野山 (讃岐富士) は正規分布らしいのでパラメータを推定する

近年, 飯野山が正規分布と言われて久しい. しかしながら, 具体的なパラメータを推定した先行研究は存在しない. 本稿では, 正規分布への当てはめを行うとともに, 飯野山の分布形状のもつ非ガウシアンな要素に着目し, 頂点付近が平坦になる分布に関しても議論…

[R] [OpenStreatMap] 東京の道路データをグラフに要約する

R を使い OpenStreetMap API で道路データを取得してグラフを作る話

誤った図解から学ぶロジスティック回帰の性質

発端 www.datasciencecentral.com というData Science Central の記事が,"A good reminder that Data Science Central is completely insane" https://t.co/68esZTv88d— mat kelcey (@mat_kelcey) 2018年5月22日 (Data Science Central が完全にデタラメであ…

『ベイズ統計の理論と方法』の行間を読む I

渡辺澄夫『ベイズ統計の理論と方法』の補足説明っぽいことを書いた。

[R] 非ガウシアン状態空間対応パッケージ, KFAS の使い方

R の状態空間モデル計算パッケージ KFAS は、正規分布以外のモデルにも適用可能な便利なパッケージである. この KFAS を, 交通事故件数モデルの実例を用いて解説する

[R] bsts (ベイズ構造時系列モデル) パッケージの使い方

Google の研究者が開発した R 用の時系列予測パッケージ BSTS (ベイズ構造時系列モデル, Bayesian structural time series model) の理念と使い方を解説する.

[R] 予測モデルを作るには formula を活用せよ

予測モデルを構築する時は変数の変換と取捨選択を試行錯誤する必要があるが, R の formula を活用すれば楽にできる.

[教材] 今更だが, ベイズ統計とは何なのか.

もう2017年だがベイズ統計と頻度主義統計学のちがいについての説明文を書いた. 歴史的経緯による違いから実用上の利点と問題まで.

[R] [教材]アニメーションで学ぶカルマンフィルタ

概要 すごく今更感があるが, カルマンフィルタのフィルタリングの話. アニメーションを作ってみたかっただけともいう. 簡単な説明なのでもっと具体的な話は他の文献で勉強して欲しい. カルマンフィルタのアニメーションを作成している記事は既にがあるのだが…

[stan][R] RFM分析と階層ベイズ法 (解決編)

前回うまくいかなかった stan を用いたRFM分析の決着編。

[R] glmnet を glm みたいに使う

2019/12/15 追記: 今は caret, mlr, mlr3等便利バッケージが増えたので, 以下の内容をあえて使うメリットはないです.概要 本文よりリンクの面積の方が大きいしょぼい記事 glmnet() を glm() の構文っぽく使う関数を雑に作った. 今は caretがあるのであまり意…

[R] 東京都の所得階級分布から元の分布を推定する方法

土地統計調査の世帯収入は不完全な階級化データでしか公開されないため, 全世帯の平均収入を直接計算することが出来ない。そこで、東京都のデータを使って確率モデルを仮定して世帯収入分布を推定する方法を紹介する。

[STAN] [R] STAN の出力加工方法2 DIC の計算

概要 前回の(R) Stan の出力加工方法 - ill-identified diaryのおまけ的な形で書いた. BUGS には DIC を計算する機能があるらしいが, rstan にはないので書いてみた. Spiegelhalter et al. (2002) で提案された DIC, デビアンス情報量規準はベイズ統計でモデ…

[stan] [R] ベクトル ARIMA (VARIMA) で人口予測 (?)

概要 前回 VARMA の話をしたのに関連して, 単なるテクニカルな話題から, もう少し実用性のある話にしてみた. 都道府県別の人口の時系列データを VARIMA を当てはめてみた. 今月は時間がなかったのであまり大した内容ではない. 5ページ程度. 中途半端. VARMA …

[異種試合] ディープラーニングVSディープパラメータ

ユリウス暦2020/1/6更新: その後のこの分野の急速な発展のため, 情報を更新した ill-identified.hatenablog.com 概要今やかなり使い古された感じのあるテーマだが, 統計学と機械学習の違いについて, 分析の対象が社会現象である場合に限定して自分なりの考え…

時系列編の続き: サンプルサイズが小さいときの情報量基準

概要前回の[[R] 回帰分析で適切な方法を使わないとどうなるか (時系列編) - ill-identified diary]で, 「時系列分析の場合は線型過程のラグ項の次数が分からないことが普通ではないか (なので実用性に欠ける用例でないか)」という指摘をいただいたので, 過去…

大数の法則の視覚化から理想の推定量を考える

概要 シミュレーションで「大数の法則」を視覚的に表しながら説明してみる. 推定量の「一致性」「不偏性」「有効性 (効率性)」とはなんなのかも説明 異なる性質を持つ推定量が大数の法則のもとでどういう違いが出るのかを視覚的に表す. というか中心極限定理…

科学史から最小二乗法 (回帰分析) を説明してみる

2016/12/15: にわかに閲覧者が増えたのでおかしなところを微修正 概要 統計学史をちょっと調べていておもしろかったのでまとめてみた 技術的にはすごく初歩的な話なので, 回帰分析 (最小二乗法) の入門的な「読み物」という位置づけになりそう 入門的な読み…

[計量経済学] ロジスティック回帰の2通りの表現

2015/3/4 対数尤度関数の式が間違っていたので修正 概要 潜在変数 (latent variable) モデルを用いた2値のロジスティック回帰 (ロジットモデル) の表現について説明する 文章量はPDF換算で3ページ程度 久保本でのロジスティック回帰その筋では結構有名になっ…

×「母数」 ○「分母・全数」

(お断り) 今回はお役立ち情報というより読み物, あるいは筆者の政治的主張です. 2016/7/18: 「サンプル数」について加筆 母数はパラメータの訳語 確率論・統計学で用いられるパラメータ (parameter) は, 確率分布の特徴を表す値で, 日本語では「母数」と訳さ…

[離散選択] 非集計データの購買行動

2014/06/12: データの加工方法を加筆 2014/06/14: 多項ロジット, 条件付き・混合ロジットを混同しないよう修正 離散選択が消費者の購買行動を分析するのにどう利用されているか, ということについて調べていたので, その要約を書いておく. 自分はマーケティ…