ill-identified diary

所属組織の見解などとは一切関係なく小難しい話しかしません

「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 -

全数調査 --- 全てのデータを取得できれば統計分析は必要ない, 全てのログデータを使えば機械学習は完全にうまく行く... それらは全て誤りである. 母集団の考え方は意外と教科書でもはっきりと教えていないので, 新しい視点で説明してみた

[小ネタ] [R] randomForest::MDSplot() を ggplot2 で書き直す

randomForest::MDSplot() が `ggplot2` で描かれたグラフじゃないのは不便なので作った.

おまえはもうRのグラフの日本語表示に悩まない (各OS対応)

Rグラフで日本語フォントを表示する方法が新旧OSいろいろばらばらだったのでまとめた

(u)pBibTeX から biblatex に移行できるか (備忘録) (未完成)

まじでメモ まじで情報がない 能書き 主なオプション style natbib sorting, sortlocale backend 結論 補足: 記述例 能書きBibLaTeX はマジで日本語情報が不足してるのでとりあえずメモ. 「BiBLaTeXに移行して日本語文献がうまく出力できないので調べている…

[R] 小ネタ: Rのサンプルデータの詳細情報を一括表示する

Rデータセットのヘルプドキュメントを一括取得してデータを簡単に探す方法……あまり簡単ではなかった

[R] R Markdown の YAML ヘッダでハマったおまえのための記事

R Markdown の YAML ヘッダでわかりにくくエラーの原因になりがちな箇所を逆噴射文体で解説する

LaTeXをはてなブログに変換する pandoc フィルタを作った

いまはまだLaTeXをはてな記法に変換することしかできないが, そのうちRStudioからも直接送れるようになる

[R] dplyr 1.0.0 時代の時系列データ処理 — 特に移動集計 —

dplyr (tidyverse) の時代に合った新しい時系列データ処理用パッケージをいろいろ比較した結果……へのリンク

[R] [TeX] rmarkdownでスライドをpdfで出力するフォーマットパッケージを作った

2020/7/10 追記: 更新していろいろ変わった. 特に名前が rmdCJKからrmdjaに変わっている点に注意 2020/9/21 追記: リポジトリ変更こっちの内容は古くなったので R Markdown の日本語テンプレートが欲しい場合や技術的な詳細は GitHub - Gedevan-Aleksizde/rm…

[R][Stan]マルコフ連鎖モンテカルロ法の実践ガイド2: ランクプロット他

Vehtali et al(2020) で提案されたランクプロットやbulk-ESSに関する解説

[R] データフレームの変数に日本語ラベルを付けたいとき

これを読んでわかること haven はSASやSTATA, SPSSなど変数ラベルのあるフォーマットのデータも読み込める labelled::var_label()でデータフレームの各変数に一括してラベルを付加できる expss::use_labels()を使えばグラフや要約統計量に表示される変数名を…

Rステッカーの入手方法

概要六角形のあれRSudioのロゴ (CC-0)現在の入手方法昔は RStudioの公式サイトで通販できたがこのページでは今はマグカップとTシャツしか販売していない.rstudio.comこっちにも公式グッズらしきものがあるがステッカーはない.www.redbubble.comRStudio社がス…

[R] とパンデミックの数理モデル 新型コロナウィルス(COVID-19)研究を例に

第84回Tokyo.Rの発表資料です. 前回言ったようにrmarkdown使用中なので本体は Rpubs に上げた.感染症の流行を表す数理モデルに, SIR, SEIRといった古典的なものがある. これらのモデルの特徴について説明し, Rで計算する方法にも言及した. さらに最近流行し…

RでOlley-Pakesの構造推定を書く例とbookdown

先日の第83回Tokyo.Rで構造推定に関する発表をした. 以前の発表資料(https://github.com/Gedevan-Aleksizde/20190703_ML_ECON)の加筆が直前まで長引いてたため, 正味3日くらいしか準備できる時間がなかった. そこで以前の発表ですこしだけ触れた構造推定につ…

計量経済学と機械学習の関係 –AI はさだめ, さだめは反事実 (転送用)

第80回Tokyo.Rの発表の補足として書かれた長文

IRIS: R 質問チャンネルで再現性を担保するための標本抽出器

概要 イントロダクション 再現性に関する解説 「初心者の質問」特有の問題 補足:「再現性」と「再現可能性」 不変的で再現可能な入門用標本抽出器, IRIS の提案 解説 意味がわからない人へのネタバレ その他 概要R の初心者の質問などで役立つように再現性を…

三国志で学ぶデータ分析 (原稿写し)

2019年Japan.Rで公開した怪文書のhtml版

[メモ] R 上でディープラーニングをGPUで動かす: Mxnet, tensorflow, keras

Ubuntu OS, R 上で GPU 版 mxnet や keras (tensorflow) を動かしたかったのでインストールした話.

[R] CausalImpact でできること, できないこと

CausalImpact パッケージに関して, ただひたすら長いだけのうんちく書いた. 27ページ相当.

[R] 飯野山 (讃岐富士) は正規分布らしいのでパラメータを推定する

近年, 飯野山が正規分布と言われて久しい. しかしながら, 具体的なパラメータを推定した先行研究は存在しない. 本稿では, 正規分布への当てはめを行うとともに, 飯野山の分布形状のもつ非ガウシアンな要素に着目し, 頂点付近が平坦になる分布に関しても議論…

[R] [stan] bayesplot を使ったモンテカルロ法の実践ガイド

図1: Monte-Carlo, from Neugebauer (2018) イントロダクション モンテカルロ法とは どこを見て収束を確認するか トレースプロット GR統計量 を確認する. 多重連鎖はいくつ必要か 自己相関関数 (ACF, コレログラム) 有効サンプルサイズ 事後診断ツール bayes…

[四月馬鹿][機械学習] 非線形分類アルゴリズム「HotPot」を新開発しました!

機械学習のエイプリルフール記事です.

[メモ] Mendeley: Exodus ~Mendeley から Zotero への移行の手引き~

Mendeley から Zotero へ移行するときのメモ

「AIの正体は最小二乗法」記事を読み解く

小林慶一郎氏の『AIと超人類の時代 弱者がもつ強み』の解説

[計量経済学] [機械学習] Generalized Random Forest (GRF) について

概要 予備知識のセットアップ 目的は因果推論 一般化モーメント法 (GMM) カーネル回帰 ランダムフォレスト 本題 参考文献 概要Athey, Tibshirani, & Wager (2016, Generalized Random Forests) で提案されている Generalized Random Forest (GRF) について解…

[R] [OpenStreatMap] 東京の道路データをグラフに要約する

R を使い OpenStreetMap API で道路データを取得してグラフを作る話

[R] fb Prophet の解剖で学ぶベイズ時系列モデリング

prophet パッケージを例にベイズ統計モデルについて説明する

誤った図解から学ぶロジスティック回帰の性質

発端 www.datasciencecentral.com というData Science Central の記事が,"A good reminder that Data Science Central is completely insane" https://t.co/68esZTv88d— mat kelcey (@mat_kelcey) 2018年5月22日 (Data Science Central が完全にデタラメであ…

可変長 n-gram モデルで記事を自動作成する

本記事は 以下の2018年4月1日付のエイプリルフール特別企画エントリのネタバレ編です. 文体が多少異なりますが, 内容は概ね同じです. こちらの記事が読みづらいという方は本エントリをお読みください. ill-identified.hatenablog.com 概要最近は知識をひけら…

[コラム] シンぎゅラリティの時代におまえは人気エントリを書けるか?

本記事はエイプリルフール用の特別記事です. 威圧的・挑発的な文体はジョークです. 種明かし編はこちらです. ill-identified.hatenablog.com 概要よくきたな. おれは ill-identified だ.おれは日頃から長文で難解な記事ばかり書いている. そこで難解な長文に…