ill-identified diary

所属組織の見解などとは一切関係なく小難しい話しかしません

教材

Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド

Python でも楽にグラフを書きたい人のために

[書評]『データ分析のためのデータ可視化入門』と最近の R グラフィックスパッケージ事情

“Data Visualization: A Practical Introduction” の邦訳『データ可視化入門』の紹介+α

[R][初心者の質問] mice で多重代入法の結果を統合できない時の対処法

R の mice パッケージの pool 関数がうまく使えない人への回答

[小ネタ] R でコロプレス図 (色分け地図) をなるべく簡単に描く

概要R-wakalang に投稿された質問を元にした小ネタ. タイトルの通り sf と ggplot2 パッケージを使ったコロプレス図 (色分け地図) の作成方法を紹介する*1. あまり R に習熟していない人向けにごく簡単な例だけを紹介する.関連する話を取り上げているページ…

「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 -

全数調査 --- 全てのデータを取得できれば統計分析は必要ない, 全てのログデータを使えば機械学習は完全にうまく行く... それらは全て誤りである. 母集団の考え方は意外と教科書でもはっきりと教えていないので, 新しい視点で説明してみた

[R] R Markdown の YAML ヘッダでハマったおまえのための記事

R Markdown の YAML ヘッダでわかりにくくエラーの原因になりがちな箇所を逆噴射文体で解説する

三国志で学ぶデータ分析 (原稿写し)

2019年Japan.Rで公開した怪文書のhtml版

[計量経済学] [機械学習] Generalized Random Forest (GRF) について

概要 予備知識のセットアップ 目的は因果推論 一般化モーメント法 (GMM) カーネル回帰 ランダムフォレスト 本題 参考文献 概要Athey, Tibshirani, & Wager (2016, Generalized Random Forests) で提案されている Generalized Random Forest (GRF) について解…

誤った図解から学ぶロジスティック回帰の性質

発端 www.datasciencecentral.com というData Science Central の記事が,"A good reminder that Data Science Central is completely insane" https://t.co/68esZTv88d— mat kelcey (@mat_kelcey) 2018年5月22日 (Data Science Central が完全にデタラメであ…

[R] bsts (ベイズ構造時系列モデル) パッケージの使い方

Google の研究者が開発した R 用の時系列予測パッケージ BSTS (ベイズ構造時系列モデル, Bayesian structural time series model) の理念と使い方を解説する.

[R] [bsts, dlm, KFAS] マーケティングの状態空間モデリング

概要 岩波 DS Vol. 6 での佐藤忠彦 (2017, 状態空間モデルのマーケティングへの応用)の記事でなされた小売業の売上量のモデリングを R で再現してみる. dlm と KFAS, そしてbstsパッケージを利用して, それぞれでプログラムを書いてみる. 最近はゆるめの読み…

[R] 予測モデルを作るには formula を活用せよ

予測モデルを構築する時は変数の変換と取捨選択を試行錯誤する必要があるが, R の formula を活用すれば楽にできる.

[教材] 今更だが, ベイズ統計とは何なのか.

もう2017年だがベイズ統計と頻度主義統計学のちがいについての説明文を書いた. 歴史的経緯による違いから実用上の利点と問題まで.

[R] [教材]アニメーションで学ぶカルマンフィルタ

概要 すごく今更感があるが, カルマンフィルタのフィルタリングの話. アニメーションを作ってみたかっただけともいう. 簡単な説明なのでもっと具体的な話は他の文献で勉強して欲しい. カルマンフィルタのアニメーションを作成している記事は既にがあるのだが…

[R] 回帰分析で適切な方法を使わないとどうなるか (時系列編)

概要 前回 大数の法則の視覚化から理想の推定量を考える - ill-identified diary の最後に上げた具体例の, 時系列分析の場合についても, 推定量の違いから生じる結果を視覚化してみた. 時系列はあまり詳しくないので操作変数編より内容が薄い. 安定な自己回…

[R] 回帰分析で適切な方法を使わないとどうなるか (操作変数編)

概要 大数の法則を視覚化した前回 大数の法則の視覚化から理想の推定量を考える - ill-identified diary の最後に挙げた具体例の, 操作変数の場合についても, 推定量の違いから生じる結果を視覚化してみた. 通常最小二乗法と操作変数法 (2段階最小二乗法) だ…

大数の法則の視覚化から理想の推定量を考える

概要 シミュレーションで「大数の法則」を視覚的に表しながら説明してみる. 推定量の「一致性」「不偏性」「有効性 (効率性)」とはなんなのかも説明 異なる性質を持つ推定量が大数の法則のもとでどういう違いが出るのかを視覚的に表す. というか中心極限定理…

科学史から最小二乗法 (回帰分析) を説明してみる

2016/12/15: にわかに閲覧者が増えたのでおかしなところを微修正 概要 統計学史をちょっと調べていておもしろかったのでまとめてみた 技術的にはすごく初歩的な話なので, 回帰分析 (最小二乗法) の入門的な「読み物」という位置づけになりそう 入門的な読み…

[GMM] 非線形モデルでの一般化モーメント法と操作変数

概要 [GMM] 一般化モーメント法と操作変数 - ill-identified diary の続き. 非線形モデルに対して操作変数法*1, あるいは GMM を適用するのかということについて 最尤法との比較 具体的な応用例はまた別の記事に 前回予告したように, 非線形モデルに対して G…

[GMM] 一般化モーメント法と操作変数

概要 今回は GMM (一般化積率法, 一般化モーメント法) について, 操作変数法との関連に重点して話す. そもそも GMM とはなにか. GMM と操作変数法 (2段階最小二乗法) との関係 操作変数を使った推定法のバリエーション 職場の統計推論に詳しい人に「GMM って…

[計量経済学] 非連続回帰デザイン (RDD) 理論編

2014/12/18 実践編を更新 [計量経済学][時事ネタ?] 非連続回帰デザイン (RDD) 実践編 - ill-identified diary 概要 数式が多い Sharp RD と Fuzzy RD の手法について前回より厳密かつ実用性のある説明をする. R の rdd パッケージを使って実演する. → 理論の…

非連続回帰デザイン(Regression-Discontinuity Design)

RDDとは? 前回 で言及したRDDについて, もう少し詳しく話すために個別に記事を書いた. Regression-Discontinuity Design (RDD) "Reforms as Experiments" は, Campbell (1969) で, 政策評価のために提案された方法論. Campbell (1969) には RDD 以外の話題も…

[発展編] 多項ロジットの話

前回の多項ロジット (混合ロジット) の話に引き続いて, 多項ロジットが使えない場合の手法について書いておく. 今回言及するのは: IIAの仮定を検証する方法 ネステッド・ロジット 実行方法 一般化極値 (GEV) モデル 混合モデル (Mixture Model) 実行方法 で…

[離散選択] 非集計データの購買行動

2014/06/12: データの加工方法を加筆 2014/06/14: 多項ロジット, 条件付き・混合ロジットを混同しないよう修正 離散選択が消費者の購買行動を分析するのにどう利用されているか, ということについて調べていたので, その要約を書いておく. 自分はマーケティ…

[R] Rで学ぶ都知事選のデータ可視化【地理データ編】

注記 2014/11/8 シェイプファイルの利用元を ESRI から国土数値情報に変更し, 若干修正 概要 maptools パッケージを使ってGISデータをRに取り込み, 操作する方法を紹介する 意地でも ggplot2 パッケージをつかってGISデータからコロプレス地図 (塗り分け地図…

[R] 都知事選挙を題材に学ぶ ggplot2 の作例

概要 前回 (ggplot2 で積み上げ折れ線グラフ(エリアプロット)を作成する方法) に引き続き, ggpplot の作例を紹介する. 前回は時系列データから積み上げ折れ線グラフを作成したのに対し, 今回は2014年2月9日に行われた東京都知事選挙の結果という横断面デー…