統計学

[R] 非ガウシアン状態空間対応パッケージ, KFAS の使い方

R の状態空間モデル計算パッケージ KFAS は、正規分布以外のモデルにも適用可能な便利なパッケージである. この KFAS を, 交通事故件数モデルの実例を用いて解説する

[R] 予測モデルを作るには formula を活用せよ

予測モデルを構築する時は変数の変換と取捨選択を試行錯誤する必要があるが, R の formula を活用すれば楽にできる.

[教材] 今更だが, ベイズ統計とは何なのか.

もう2017年だがベイズ統計と頻度主義統計学のちがいについての説明文を書いた. 歴史的経緯による違いから実用上の利点と問題まで.

[R] [教材]アニメーションで学ぶカルマンフィルタ

概要 すごく今更感があるが, カルマンフィルタのフィルタリングの話. アニメーションを作ってみたかっただけともいう. 簡単な説明なのでもっと具体的な話は他の文献で勉強して欲しい. カルマンフィルタのアニメーションを作成している記事は既にがあるのだが…

[R] glmnet を glm みたいに使う

概要 本文よりリンクの面積の方が大きいしょぼい記事 glmnet() を glm() の構文っぽく使う関数を雑に作った. 今は caretがあるのであまり意味はない. 内容glmnet パッケージの glmnet() は名前でわかるように一般化線形モデル (GLM) を elastic net で正則化…

[R] 東京都の所得階級分布から元の分布を推定する方法

土地統計調査の世帯収入は不完全な階級化データでしか公開されないため, 全世帯の平均収入を直接計算することが出来ない。そこで、東京都のデータを使って確率モデルを仮定して世帯収入分布を推定すること方法を紹介する。

[STAN] [R] STAN の出力加工方法2 DIC の計算

概要 前回の(R) Stan の出力加工方法 - ill-identified diaryのおまけ的な形で書いた. BUGS には DIC を計算する機能があるらしいが, rstan にはないので書いてみた. Spiegelhalter et al. (2002) で提案された DIC, デビアンス情報量規準はベイズ統計でモデ…

[stan] [R] ベクトル ARIMA (VARIMA) で人口予測 (?)

概要 前回 VARMA の話をしたのに関連して, 単なるテクニカルな話題から, もう少し実用性のある話にしてみた. 都道府県別の人口の時系列データを VARIMA を当てはめてみた. 今月は時間がなかったのであまり大した内容ではない. 5ページ程度. 中途半端. VARMA …

[異種試合] ディープラーニングVSディープパラメータ

概要今やかなり使い古された感じのあるテーマだが, 統計学と機械学習の違いについて, 分析の対象が社会現象である場合に限定して自分なりの考えをまとめてみた. 例えば, 以下の,tjo.hatenablog.comでも説明が試みられていて, ここにあるように「統計学は説明…

時系列編の続き: サンプルサイズが小さいときの情報量基準

概要前回の[[R] 回帰分析で適切な方法を使わないとどうなるか (時系列編) - ill-identified diary]で, 「時系列分析の場合は線型過程のラグ項の次数が分からないことが普通ではないか (なので実用性に欠ける用例でないか)」という指摘をいただいたので, 過去…

大数の法則の視覚化から理想の推定量を考える

概要 シミュレーションで「大数の法則」を視覚的に表しながら説明してみる. 推定量の「一致性」「不偏性」「有効性 (効率性)」とはなんなのかも説明 異なる性質を持つ推定量が大数の法則のもとでどういう違いが出るのかを視覚的に表す. というか中心極限定理…

科学史から最小二乗法 (回帰分析) を説明してみる

2016/12/15: にわかに閲覧者が増えたのでおかしなところを微修正 概要 統計学史をちょっと調べていておもしろかったのでまとめてみた 技術的にはすごく初歩的な話なので, 回帰分析 (最小二乗法) の入門的な「読み物」という位置づけになりそう 入門的な読み…

[計量経済学] ロジスティック回帰の2通りの表現

2015/3/4 対数尤度関数の式が間違っていたので修正 概要 潜在変数 (latent variable) モデルを用いた2値のロジスティック回帰 (ロジットモデル) の表現について説明する 文章量はPDF換算で3ページ程度 久保本でのロジスティック回帰その筋では結構有名になっ…

×「母数」 ○「分母・全数」

(お断り) 今回はお役立ち情報というより読み物, あるいは筆者の政治的主張です. 2016/7/18: 「サンプル数」について加筆 母数はパラメータの訳語 確率論・統計学で用いられるパラメータ (parameter) は, 確率分布の特徴を表す値で, 日本語では「母数」と訳さ…

[離散選択] 非集計データの購買行動

2014/06/12: データの加工方法を加筆 2014/06/14: 多項ロジット, 条件付き・混合ロジットを混同しないよう修正 離散選択が消費者の購買行動を分析するのにどう利用されているか, ということについて調べていたので, その要約を書いておく. 自分はマーケティ…