ill-identified diary

所属組織の見解などとは一切関係なく小難しい話しかしません

[異種試合] ディープラーニングVSディープパラメータ

ユリウス暦2020/1/6更新: その後のこの分野の急速な発展のため, 情報を更新した ill-identified.hatenablog.com 概要今やかなり使い古された感じのあるテーマだが, 統計学と機械学習の違いについて, 分析の対象が社会現象である場合に限定して自分なりの考え…

SASでの文字コードの扱い方

概要あんまりないと思うが, 文字コードが異なるOS間でデータのやりとりをするときの話. SAS でセッションのエンコーディングと異なる文字コードのテキストを読み込む or 書き出す方法について データセットのエンコーディングが異なる場合のやり取りについて…

[R] ふだんと少し違うソローモデル

概要 普段とは趣向を変えて, R でソローモデルのシミュレーションをする. そのままだとつまらないので, ソローモデルの人口成長の前提条件をロジスティック法則としてみる. 分量はPDF換算で 6 ページ. ロジスティック法則についてソローモデルや, 他の多くの…

時系列編の続き: サンプルサイズが小さいときの情報量基準

概要前回の[[R] 回帰分析で適切な方法を使わないとどうなるか (時系列編) - ill-identified diary]で, 「時系列分析の場合は線型過程のラグ項の次数が分からないことが普通ではないか (なので実用性に欠ける用例でないか)」という指摘をいただいたので, 過去…

[SAS] 日付でオブザベーションを抜き出す方法について

概要SAS の日付の扱い方について. 本当に小ネタ.実行環境は SAS® University Edition.SAS日付値データから特定の日付 (または期間) のオブザベーション (レコード) だけ抜き出したいという場面は結構多いはず. SAS では日付は文字列では認識せず, SAS内部で…

[R] 回帰分析で適切な方法を使わないとどうなるか (時系列編)

概要 前回 大数の法則の視覚化から理想の推定量を考える - ill-identified diary の最後に上げた具体例の, 時系列分析の場合についても, 推定量の違いから生じる結果を視覚化してみた. 時系列はあまり詳しくないので操作変数編より内容が薄い. 安定な自己回…

[R] 回帰分析で適切な方法を使わないとどうなるか (操作変数編)

概要 大数の法則を視覚化した前回 大数の法則の視覚化から理想の推定量を考える - ill-identified diary の最後に挙げた具体例の, 操作変数の場合についても, 推定量の違いから生じる結果を視覚化してみた. 通常最小二乗法と操作変数法 (2段階最小二乗法) だ…

大数の法則の視覚化から理想の推定量を考える

概要 シミュレーションで「大数の法則」を視覚的に表しながら説明してみる. 推定量の「一致性」「不偏性」「有効性 (効率性)」とはなんなのかも説明 異なる性質を持つ推定量が大数の法則のもとでどういう違いが出るのかを視覚的に表す. というか中心極限定理…

科学史から最小二乗法 (回帰分析) を説明してみる

2016/12/15: にわかに閲覧者が増えたのでおかしなところを微修正 概要 統計学史をちょっと調べていておもしろかったのでまとめてみた 技術的にはすごく初歩的な話なので, 回帰分析 (最小二乗法) の入門的な「読み物」という位置づけになりそう 入門的な読み…

[計量経済学] 非線形モデルと操作変数の応用例

概要 前回 [GMM] 非線形モデルでの一般化モーメント法と操作変数 - ill-identified diary の続き. 操作変数を用いる非線形モデルの例として, 2値選択の場合の手法を紹介する. 前回予告ではロジットと言ったが, プロビットの話になった. 文章量はpdf換算6頁程…

[GMM] 非線形モデルでの一般化モーメント法と操作変数

概要 [GMM] 一般化モーメント法と操作変数 - ill-identified diary の続き. 非線形モデルに対して操作変数法*1, あるいは GMM を適用するのかということについて 最尤法との比較 具体的な応用例はまた別の記事に 前回予告したように, 非線形モデルに対して G…

[計量経済学] ロジスティック回帰の2通りの表現

追記: この記事の内容を以下で書き直した.ill-identified.hatenablog.com 2015/3/4 対数尤度関数の式が間違っていたので修正 概要 潜在変数 (latent variable) モデルを用いた2値のロジスティック回帰 (ロジットモデル) の表現について説明する 文章量はPDF…

はてなブログの執筆環境を考える

2020/8/24: この記事はあまりにも古いのでこっちを読んでくださいill-identified.hatenablog.com概要 markdown 記法は楽だがはてなブログのTeX記法がTeXじゃない! 時間を掛けたくない! LyX + pandoc なら楽. 一部問題があるが変換に成功. これまで markdown …

[GMM] 一般化モーメント法と操作変数

概要 今回は GMM (一般化積率法, 一般化モーメント法) について, 操作変数法との関連に重点して話す. そもそも GMM とはなにか. GMM と操作変数法 (2段階最小二乗法) との関係 操作変数を使った推定法のバリエーション 職場の統計推論に詳しい人に「GMM って…

[R] タイムゾーン変換

概要 Date-time オブジェクトのタイムゾーン変換がよく分からなかった. 実はちゃんとリファレンスに書いてあった. 詳細 文字列を日付として取り込む場合, as.POSIX* を使う(strptime() 関数というのもある). さらにこのとき, タイムゾーンを指定すれば別の標…

[R] R で二段階最小二乗法 (操作変数法)

概要 今回は大した内容ではない sem パッケージで二段階最小二乗法をする tsls() 関数の構文がちょっとわかりづらかったのでメモ書き程度に残しておく 操作変数 のようなモデルがあるとして, が内生変数である, つまり 誤差項 と相関するとき, 通常の最小二…

[Twitter] [R] ツイッター選挙分析 (黎明篇)

概要 以前 紹介した streamR を利用して, 選挙前11日分のツイートを取得していた. しかし活用方法が分からないので簡単な集計結果のみ公開 ggplot2, dplyr などを使ってグラフにまとめる例を示す streamR でツイートを集める 1時間単位でツイートを収集し, t…

[計量経済学][時事ネタ?] 非連続回帰デザイン (RDD) 実践編

前回のRDD理論編を踏まえて, 前回 紹介した, Angrist and lavy(1999) "Using Maimonides' Rule to Estimate the Effect of Class Size on Scholastic Achievement" (以下 AL1999 と呼ぶ) のサンプルデータが著者の一人アングリストの所属する MIT Economics …

[計量経済学] 非連続回帰デザイン (RDD) 理論編

2014/12/18 実践編を更新 [計量経済学][時事ネタ?] 非連続回帰デザイン (RDD) 実践編 - ill-identified diary 概要 数式が多い Sharp RD と Fuzzy RD の手法について前回より厳密かつ実用性のある説明をする. R の rdd パッケージを使って実演する. → 理論の…

非連続回帰デザイン(Regression-Discontinuity Design)

RDDとは? 前回 で言及したRDDについて, もう少し詳しく話すために個別に記事を書いた. Regression-Discontinuity Design (RDD) "Reforms as Experiments" は, Campbell (1969) で, 政策評価のために提案された方法論. Campbell (1969) には RDD 以外の話題も…

[時事ネタ] 少人数教育は実際どれくらい意味があるのか

2014/11/20 時事ネタと言いつつ時事ネタへの言及が皆無だったので加筆 前置き 時事ネタ (NHK: 自民党 35人学級見直し反対の決議案) というほど時事問題に踏み込んではいないが, 少人数教育に関する研究として, J. D. アングリストと V. レヴィによる1999年…

[DOS芸] 文系学生のためのデータ加工

2014/09/22 SQL 学習用の参考サイトを申し訳程度に追加 要約 今回の記事は プログラミングをあまりしたことのない (文系の) 学生で 卒論 (もしくは修論も?) で回帰分析など, 定量的な研究をしてみたいと考えている 人を読者層に想定して書いた. では何を書く…

[xkb] Ubuntu 14.04 で Caps Lock を別のキーにする方法

概要 ubuntu 14.04 で xkb の設定を変えて Caps Lock を 好きなキーに変える方法 無変換キーをエスケープキーにする方法 他のキーの機能も変更できるようにするヒント を紹介します. 2015/6/17: 起動時に自動で設定を反映する方法について追記 2016/8/14: Ub…

×「母数」 ○「分母・全数」

(お断り) 今回はお役立ち情報というより読み物, あるいは筆者の政治的主張です. 2016/7/18: 「サンプル数」について加筆 母数はパラメータの訳語 確率論・統計学で用いられるパラメータ (parameter) は, 確率分布の特徴を表す値で, 日本語では「母数」と訳さ…

[GIS] [R] 日本国内の鉄道網を可視化してみる (後編)

画像は60年代の東京都心の路線 (変わってない) 前回までのあらすじ 国交省の国土数値情報データベースからダウンロードした国内の過去存在した鉄道のデータを R で読み込み, 任意の時期の鉄道を表示する方法を紹介した. しかし, R では静止画像で表示するこ…

[GIS] [R] 日本国内の鉄道網を可視化してみる

今回やること 国土交通省の国土数値情報ダウンロードサービスから鉄道の時系列データをダウンロードし, 国内の鉄道路線網がどう変わっていったかを, R を用いた処理方法を解説しつつ, 可視化してみる. 今回も R を使ってグラフを作成する. 以前の[R] Rで学ぶ…

[離散選択] ロジットモデルの決定係数

線形回帰モデルのときは, 決定係数 という指標で, そのモデルの当てはまりの良さ, 言い換えるなら実際に観察された現実のできごとをどれくらい説明できるかを表すことができた. 決定係数の長所は, 必ずゼロから1の範囲になるため, 直感的に当てはまりの良し…

[発展編] 多項ロジットの話

前回の多項ロジット (混合ロジット) の話に引き続いて, 多項ロジットが使えない場合の手法について書いておく. 今回言及するのは: IIAの仮定を検証する方法 ネステッド・ロジット 実行方法 一般化極値 (GEV) モデル 混合モデル (Mixture Model) 実行方法 で…

[離散選択] 非集計データの購買行動

2014/06/12: データの加工方法を加筆 2014/06/14: 多項ロジット, 条件付き・混合ロジットを混同しないよう修正 離散選択が消費者の購買行動を分析するのにどう利用されているか, ということについて調べていたので, その要約を書いておく. 自分はマーケティ…

[TeX] [beamer] ありふれた新米会社員の教えるスライド作成術

2020/7/6 追記: 最近は overleaf を始め使いやすいTeXエディタが増えてきたため, 必ずしも LyX が最も優れたエディタとは言えなくなってきた. 一方で, きちんとした日本語文書を作成するにはなんだかんだで細かい設定が必要になることが多い. そのため, R言…