[メモ] R Markdown で書かれた R の資料を見つけたらここに書く
概要
見つける度に無計画に Pocket とかに保存してたがごちゃごちゃしてきたのでここに書くことにする. キリがないので Rpubs とかはナシ. 主に bookdown で作られた書籍形式の資料.
リストした資料は全体に目を通したわけではないのでクオリティを保証するものではない (メモの量でどれくらい読み込んでるかを察して欲しい). また, 翻訳したり紹介したりする価値がありそうか, あるいは RMarkdown の使用事例として参考になるか, という基準で探すことが多いので, これらに当てはまらないものは熱心に蒐集しない傾向がある.
Bookdown.org は bookdown で書かれたネット上のドキュメントをクローリングしてリンクしているので眺めているだけでもよさそうな資料はわりと見つかる.
リスト
出版年は初版公開時
無断翻訳不可
Wickham and Grolemund (2016) “R for Data Science,” O’reilly
ここを見てる人はほぼ全員もう知ってるだろうが一応.
オライリー・ジャパンから『Rではじめるデータサイエンス』というタイトルで日本語訳が出版済み.
tidyverse が普及した現在の R 環境でデータ分析をやるには最低限おさえておいたほうが良い内容だろう.
Kuhn and Johnson (2018) “Feature Engineering and Selection: A Practical Approach for Predictive Models,” Chapman and Hall/CRC
既によく知られている話を手堅くまとめた感じ.
Feature Engineering というタイトルだが単なる特徴量変換のカタログに終始せず, 精度メトリクスの特性についても言及があったので好感が持てる (この手の話はブログのようなカジュアルな媒体はもちろん専門書でもまじめに説明しているものは少ない). もう少し踏み込んでくれたらなお良いが 2018年公開 & Feature Engineering というタイトルだからしかたない.
Zheng and Casari の “Feature engineering for machine learning: principles and techniques for data scientists” よりこっちの翻訳を誰か出してほしかった.
Healy (2018) “Data Visualization: A practical introduction,” Princeton University Press
E. Tufte の提唱する視覚化の原理に強く影響を受けている.
掲載されている全てのグラフに対して ggplot2 のソースコードが公開されているためクックブックとして優れている.
傍注をうまく使ったりレイアウトに凝っている.
当初ブラウザの不具合かなにかで見られなかったので紙の書籍を買ってしまったのだが, こちらもレイアウトを工夫している
後述の Wilke とどちらか1つでもいいので日本語訳をどこか出版してください. -> 2021/1/15 コメントより追記: 『データ分析のためのデータ可視化入門』としてもうじき出版されるらしい.
一昨年から翻訳誰か出してとロビイングしていた甲斐があったようだ(翻訳作業は私が言い始める前からなされていた)- 追記: [書評]『データ分析のためのデータ可視化入門』と最近の R グラフィックスパッケージ事情 - ill-identified diary で紹介した
Wilke (2019) “Fundamentals of Data Visualization,” O’reilly
著者は cowplot パッケージ開発をはじめ R の様々なグラフ関係のパッケージに貢献している人物.
Healy とは対照的にグラフツールの使い方ではなくデータの視覚化の方法を論じる内容. Rの使い方はほぼ紹介していない.
折れ線グラフ, 散布図といった基本的なグラフの使い方だけでなく, 地理空間データのプロットや確率をどう視覚的に表現するか, という話もある.
Boehmke and Greenwell (2019) “Hands-On Machine Learning with R,” Chapman and Hall/CRC
DNN もいちおう keras の使い方に1章割いている.
理論的な説明もあまり抽象的なところに踏み込まず, 実用上どこに注意すべきかという判断材料としてエッセンシャルな部分だけうまく取り出せてる感じ
さらに理解を深めるための参考文献リストもしっかりしているので専門書としても完成度が高い
開発の終わった caret とか発展途上の tidymodels とか異なるエコシステムのパッケージの使用が混在しているのが玉に瑕
これ + Feature Engineering ~ + α の内容をmlrかtidymodelsでやろうとして気がついたらrmdjaを作っていた.
Hyndman and Athanasopoulos (2018) “Forecasting: Principles and Practice,” OTexts, 2nd Ed.
Forecasting というタイトル通り, いわゆる予測モデル的なアプローチの紹介 (prediction と言わないのは時系列モデルを扱うため)
季節分解やARIMAや動的回帰モデルなど「古典的」な時系列モデリングの話がメイン.
最近の流行を反映してか ブートストラップ的な方法の応用についても言及するようになった.
新しく追加されたトピックは理論的な解説が少ないような...
Pebesma and Bivand (2018) “Spatial Data Science”
- 地理空間統計モデルにフォーカスした資料は珍しい気がする
そこそこボリュームがあるが後半の統計モデルの解説は書きかけのところが多い
Biecek and Burzykowski (2021) “Explanatory Model Analysis: Explore, Explain, and Examine Predictive Models. With examples in R and Python.,” Chapman and Hall/CRC
結構前から見かけた気がするが来月 (2月) 発売予定らしい
中身はまだほとんど読んでない
翻訳・改変可
Xie, Allaire and Grolemund (2019) “R Markdown: Definitive Guide,” Chapman and Hall/CRC
Xie (2017) “bookdown: Authoring Books and Technical Documents with R Markdown,” Chapman and Hall/CRC
そのうち翻訳予定
Xie, Dervieux, and Riederer (2020) “R Markdown Cookbook,” Chapman and Hall/CRC
そのうち翻訳予定 -> 2021/3/28 公開『R Markdown クックブック』
Xie “knitr: Elegant, flexible, and fast dynamic report generation with R”
- TinyTeX の公式ドキュメントの非公式日本語訳 (自作, 2021/6/26 追加)
blogdown は私は使ってないので省略.
Wickham (2019) “Advanced R,” Chapman and Hall/CRC, 2nd Ed.
『R言語徹底解説』は初版 (2014) の訳.
2版は訳し放題ですよ!
大学の講義資料を参考に作成したものらしい. 比較的初歩的な内容が多い.
Hanck, Arnold, Gerber, and Schmelzer (2017) “Introduction to Econometrics with R”
Bauer (2020) “Applied Causal Analysis (with R),” ver. 29
よさそうだが Rmd ファイルは非公開.
Michael Clark のサイト, トピックごとに bookdown や distill で作成している
たとえば一般化加法モデル (GAM) とか Machine Learning とか
Molnar (2021) Interpretable Machine Learning: A Guide for Making Black Box Models Explainable.
Biecek and Burzykowski と同様に interpretability/explainability の話だがこっちは CC ライセンス
learnhub でも配信されているが料金はあくまで「寸志」
Irizarry (2019?) “Introduction to Data Science: Data Analysis and Prediction Algorithms with R,” Chapman and Hall/CRC
Harvard 大の教材をもとに編集したもの
名前通り, 「データサイエンス」とは何をやっているのか, ということの概観とチュートリアル的な内容
長年にわたる授業の講義資料をもとにしたものだからか, 一部ネタ的に少し古い感じがする (悪いことではないが流行り物に飛びつきたい人にはあまり合わないかもしれない)
これも翻訳しようと思って気がついたら rmdja を作っていた一因.
2021/10/29 追記
- Grant McDermott (2021) "Data science for economists"
- University of Oregon の博士課程向けの講義資料らしい
- MIT ライセンス
- まだ後半作りかけのところがあるが, いわゆる統計学とか機械学習というより, それを実践するために必要な知識 (R の使い方, Web スクレイピングの方法, tidyverse の使い方, docker や GCP などのデータ処理基盤の使い方, など) を主に教えている
- R と tidyverse の解説は比較的新しいバージョンに準拠したものになっている (
across
とか|>
とか使っている) のが良い - 上記リポジトリはスライド (xaringan パッケージ利用)と単元ごとに分かれたWebページとそのソースのみ公開しているが, 著者の同僚の Ed Rubin らと共同で同じ内容を bookdown で1つにまとめて再編集したものも公開されている:
grantmcdermott.com
ライセンス不明
ライセンス明記してないということは無断翻訳はしないほうがいいだろう
Wickham, Navarro, and Pedersen (2019) “ggplot2: Elegant Graphics for Data Analysis,” 3rd Ed.
2nd までは Springer から出ているがこれはよくわからん. -> 権利は出版社にあるとのこと.
Rodrigues “Modern R with the tidyverse”
後半は書きかけの箇所が目立つ
tidyverse 系パッケージの使い方をいろいろ
Peng (2020?) R Programming for Data Science
Kawaguchi (2019) “ECON5630 Topics in Empirical Industrial Organization”
香港科技大の川口先生の講義ノート兼宿題集
たぶん毎年アップデートされてる
以前私は生産関数の推定の宿題を改変したものを公開した
日本語の資料
森知晴『卒業論文のためのR入門』
学生時代の先輩だから贔屓しているわけではない. まっとうに良い資料.
レポーティングに Word を使わせてるのが
ちょっと気に入らないが, 「統計やコンピュータが苦手が学生を念頭におく」とのことなのでそこは仕方ない. 私のrmdja
も現状は万人に勧められる完成度ではない.経済学畑なので回帰分析は説明しているが分散分析は説明していない.
Better Late Than Never 『Aレベルの倫理学』
Dimmock and Fisher “Ethics for A-Level” の翻訳 (元はMedium で掲載されたものを bookdown で転載したらしい)
R とは全く関係ないという特異さが面白かったので挙げてみる
土井翔平 (2020?) Rで計量政治学入門
ネタ枠.
ND条項つけてたが
こんなもの無断転載する物好きもいないと思うのでさっき外した
宣伝. しかしまだまだ作りかけのとこが多くこのドキュメントも潜在的な書き間違えが多いと思う
bookdown を技術同人誌作成に活用した人もいるので一般公開されていない文書もそれなりにありそう.