ill-identified diary

所属組織の見解などとは一切関係なく小難しい話しかしません

データハンドリング/データ加工

R ユーザーのための Pandas 実践ガイド II: siuba と datar

pandas の構文を使いやすくするパッケージ, siuba と datar その他パッケージの機能とパフォーマンスの比較

[日記] Rで格ゲーのコマンド表を作る

はじめにこれはある意味「エクセルでモザイク画を作ってみた」とか「マインクラフトのゲーム内で計算機を作った」と同類の余興である (そしてスケールの観点からはこれらよりもだいぶ見劣りする). しかしもしかしたらこれを読んでるあなたも将来, 武装勢力に…

おまえはもうRのグラフの日本語表示に悩まない (各OS対応)

Rグラフで日本語フォントを表示する方法が新旧OSいろいろばらばらだったのでまとめた

[R] データフレームの変数に日本語ラベルを付けたいとき

これを読んでわかること haven はSASやSTATA, SPSSなど変数ラベルのあるフォーマットのデータも読み込める labelled::var_label()でデータフレームの各変数に一括してラベルを付加できる expss::use_labels()を使えばグラフや要約統計量に表示される変数名を…

三国志で学ぶデータ分析 (原稿写し)

2019年Japan.Rで公開した怪文書のhtml版

(R) Stan の出力加工方法

概要 忙しくて2ヶ月連続無更新になりそうになっているところをなんとか回避したいという妥協の産物 stan および rstan のモデルの事後診断機能がやや物足りないのでそれを補うヒント 本当に簡単な話 2016/10/07: Accessing the contents of a stanfit object…

[python] [stan] 潜在変数と階層ベイズ法と RFM 分析 [未完成]

RFM 分析を潜在変数と階層ベイズを使って表現する阿部(2011)を stan でできないか挑戦。まだ未完成。

SASでの文字コードの扱い方

概要あんまりないと思うが, 文字コードが異なるOS間でデータのやりとりをするときの話. SAS でセッションのエンコーディングと異なる文字コードのテキストを読み込む or 書き出す方法について データセットのエンコーディングが異なる場合のやり取りについて…

[SAS] 日付でオブザベーションを抜き出す方法について

概要SAS の日付の扱い方について. 本当に小ネタ.実行環境は SAS® University Edition.SAS日付値データから特定の日付 (または期間) のオブザベーション (レコード) だけ抜き出したいという場面は結構多いはず. SAS では日付は文字列では認識せず, SAS内部で…

[R] タイムゾーン変換

概要 Date-time オブジェクトのタイムゾーン変換がよく分からなかった. 実はちゃんとリファレンスに書いてあった. 詳細 文字列を日付として取り込む場合, as.POSIX* を使う(strptime() 関数というのもある). さらにこのとき, タイムゾーンを指定すれば別の標…

[DOS芸] 文系学生のためのデータ加工

2014/09/22 SQL 学習用の参考サイトを申し訳程度に追加 要約 今回の記事は プログラミングをあまりしたことのない (文系の) 学生で 卒論 (もしくは修論も?) で回帰分析など, 定量的な研究をしてみたいと考えている 人を読者層に想定して書いた. では何を書く…

[GIS] [R] 日本国内の鉄道網を可視化してみる (後編)

画像は60年代の東京都心の路線 (変わってない) 前回までのあらすじ 国交省の国土数値情報データベースからダウンロードした国内の過去存在した鉄道のデータを R で読み込み, 任意の時期の鉄道を表示する方法を紹介した. しかし, R では静止画像で表示するこ…

[GIS] [R] 日本国内の鉄道網を可視化してみる

今回やること 国土交通省の国土数値情報ダウンロードサービスから鉄道の時系列データをダウンロードし, 国内の鉄道路線網がどう変わっていったかを, R を用いた処理方法を解説しつつ, 可視化してみる. 今回も R を使ってグラフを作成する. 以前の[R] Rで学ぶ…

[R] Rで学ぶ都知事選のデータ可視化【地理データ編】

注記 2014/11/8 シェイプファイルの利用元を ESRI から国土数値情報に変更し, 若干修正 概要 maptools パッケージを使ってGISデータをRに取り込み, 操作する方法を紹介する 意地でも ggplot2 パッケージをつかってGISデータからコロプレス地図 (塗り分け地図…

[R] 都知事選挙を題材に学ぶ ggplot2 の作例

概要 前回 (ggplot2 で積み上げ折れ線グラフ(エリアプロット)を作成する方法) に引き続き, ggpplot の作例を紹介する. 前回は時系列データから積み上げ折れ線グラフを作成したのに対し, 今回は2014年2月9日に行われた東京都知事選挙の結果という横断面デー…

ggplot2 で積み上げ折れ線グラフ(エリアプロット)を作成する方法

概要 時系列データセットを加工し, ggplot2 で作図する場合を例に, 以下のことに言及する. ggplot2で複数の系列の折れ線を1つのグラフに表示する方法 さらにそれを積み上げグラフ(エリアプロット)に変形する方法 デザインを洗練する方法 -- 色系統の変更 -…

[R] [LaTeX] R での分析結果を LaTeX 形式で出力するパッケージ比較 (後編)

前置き 記述統計について書いた前回に引き続き, 回帰分析の結果をスマートに表にまとめる方法を複数のパッケージを比較しつつ紹介する. 前回に引き続き, xtable, latex, stagazer 関数の他, 新たに texreg についても紹介したい. 経済学系の論文では, 回帰分…

[R] [LaTeX] Rでの分析結果をLaTeXに出力するパッケージの比較 (前編)

2014/01/28加筆修正 途中で疲れたので記述統計のみです. 要約 手っ取り早く体裁の整った記述統計を出力したい場合は stargazer ある程度自由の効き, かつ手軽なのは describe+xtable 細かい体裁に拘りたい場合は describe+latex latex 形式への出力 というわ…