ill-identified diary

所属組織の見解などとは一切関係なく小難しい話しかしません

[メモ] R Markdown で書かれた R の資料を見つけたらここに書く

この記事は最終更新日から3年以上が経過しています


概要

見つける度に無計画に Pocket とかに保存してたがごちゃごちゃしてきたのでここに書くことにする. キリがないので Rpubs とかはナシ. 主に bookdown で作られた書籍形式の資料.

リストした資料は全体に目を通したわけではないのでクオリティを保証するものではない (メモの量でどれくらい読み込んでるかを察して欲しい). また, 翻訳したり紹介したりする価値がありそうか, あるいは RMarkdown の使用事例として参考になるか, という基準で探すことが多いので, これらに当てはまらないものは熱心に蒐集しない傾向がある.

Bookdown.orgbookdown で書かれたネット上のドキュメントをクローリングしてリンクしているので眺めているだけでもよさそうな資料はわりと見つかる.

リスト

出版年は初版公開時

無断翻訳不可

  • Wickham and Grolemund (2016) “R for Data Science,” O’reilly

  • Kuhn and Johnson (2018) “Feature Engineering and Selection: A Practical Approach for Predictive Models,” Chapman and Hall/CRC

    • 既によく知られている話を手堅くまとめた感じ.

    • Feature Engineering というタイトルだが単なる特徴量変換のカタログに終始せず, 精度メトリクスの特性についても言及があったので好感が持てる (この手の話はブログのようなカジュアルな媒体はもちろん専門書でもまじめに説明しているものは少ない). もう少し踏み込んでくれたらなお良いが 2018年公開 & Feature Engineering というタイトルだからしかたない.

    • Zheng and Casari の “Feature engineering for machine learning: principles and techniques for data scientists” よりこっちの翻訳を誰か出してほしかった.

  • Healy (2018) “Data Visualization: A practical introduction,” Princeton University Press

  • Wilke (2019) “Fundamentals of Data Visualization,” O’reilly

    • 著者は cowplot パッケージ開発をはじめ R の様々なグラフ関係のパッケージに貢献している人物.

    • Healy とは対照的にグラフツールの使い方ではなくデータの視覚化の方法を論じる内容. Rの使い方はほぼ紹介していない.

    • 折れ線グラフ, 散布図といった基本的なグラフの使い方だけでなく, 地理空間データのプロットや確率をどう視覚的に表現するか, という話もある.

  • Boehmke and Greenwell (2019) “Hands-On Machine Learning with R,” Chapman and Hall/CRC

    • 最近の流行ってる機械学習アルゴリズムはだいたい R のコードつきで紹介している.

    • DNN もいちおう keras の使い方に1章割いている.

    • 理論的な説明もあまり抽象的なところに踏み込まず, 実用上どこに注意すべきかという判断材料としてエッセンシャルな部分だけうまく取り出せてる感じ

    • さらに理解を深めるための参考文献リストもしっかりしているので専門書としても完成度が高い

    • 開発の終わった caret とか発展途上の tidymodels とか異なるエコシステムのパッケージの使用が混在しているのが玉に瑕

    • これ + Feature Engineering ~ + α の内容を mlr tidymodels でやろうとして気がついたら rmdja を作っていた.

  • Hyndman and Athanasopoulos (2018) “Forecasting: Principles and Practice,” OTexts, 2nd Ed.

    • Forecasting というタイトル通り, いわゆる予測モデル的なアプローチの紹介 (prediction と言わないのは時系列モデルを扱うため)

    • 季節分解やARIMAや動的回帰モデルなど「古典的」な時系列モデリングの話がメイン.

    • 最近の流行を反映してか ブートストラップ的な方法の応用についても言及するようになった.

    • 新しく追加されたトピックは理論的な解説が少ないような...

    • 翻訳したい場合は連絡してとは書いてある

  • Pebesma and Bivand (2018) “Spatial Data Science

    • 地理空間統計モデルにフォーカスした資料は珍しい気がする
    • そこそこボリュームがあるが後半の統計モデルの解説は書きかけのところが多い

  • Biecek and Burzykowski (2021) “Explanatory Model Analysis: Explore, Explain, and Examine Predictive Models. With examples in R and Python.,” Chapman and Hall/CRC

    • 結構前から見かけた気がするが来月 (2月) 発売予定らしい

    • 中身はまだほとんど読んでない

翻訳・改変可

blogdown は私は使ってないので省略.

  • Wickham (2019) “Advanced R,” Chapman and Hall/CRC, 2nd Ed.

  • Applied Statistics with R

    • 大学の講義資料を参考に作成したものらしい. 比較的初歩的な内容が多い.

  • Hanck, Arnold, Gerber, and Schmelzer (2017) “Introduction to Econometrics with R

    • Stock & Watson (標準的な経済学部の計量経済学テキストの1つ, 邦訳) の副読本を想定

    • HTML版のデザインが凝っている (凝ってるせいでちょっと読み込みが遅かったりする)

    • むしろ bookdown のHTMLウィジェット活用例として見ることもできそう

  • Bauer (2020) “Applied Causal Analysis (with R),” ver. 29

    • よさそうだが Rmd ファイルは非公開.

  • Michael Clark のサイト, トピックごとに bookdowndistill で作成している

  • Molnar (2021) Interpretable Machine Learning: A Guide for Making Black Box Models Explainable.

    • Biecek and Burzykowski と同様に interpretability/explainability の話だがこっちは CC ライセンス

    • learnhub でも配信されているが料金はあくまで「寸志」

  • Irizarry (2019?) “Introduction to Data Science: Data Analysis and Prediction Algorithms with R,” Chapman and Hall/CRC

    • Harvard 大の教材をもとに編集したもの

    • 名前通り, 「データサイエンス」とは何をやっているのか, ということの概観とチュートリアル的な内容

    • 長年にわたる授業の講義資料をもとにしたものだからか, 一部ネタ的に少し古い感じがする (悪いことではないが流行り物に飛びつきたい人にはあまり合わないかもしれない)

    • これも翻訳しようと思って気がついたら rmdja を作っていた一因.

  • 2021/10/29 追記
  • Grant McDermott (2021) "Data science for economists"
    • University of Oregon の博士課程向けの講義資料らしい
    • MIT ライセンス
    • まだ後半作りかけのところがあるが, いわゆる統計学とか機械学習というより, それを実践するために必要な知識 (R の使い方, Web スクレイピングの方法, tidyverse の使い方, docker や GCP などのデータ処理基盤の使い方, など) を主に教えている
    • R と tidyverse の解説は比較的新しいバージョンに準拠したものになっている (across とか |> とか使っている) のが良い
    • 上記リポジトリはスライド (xaringan パッケージ利用)と単元ごとに分かれたWebページとそのソースのみ公開しているが, 著者の同僚の Ed Rubin らと共同で同じ内容を bookdown で1つにまとめて再編集したものも公開されている:
      grantmcdermott.com

ライセンス不明

ライセンス明記してないということは無断翻訳はしないほうがいいだろう

日本語の資料

  • 森知晴『卒業論文のためのR入門

    • 学生時代の先輩だから贔屓しているわけではない. まっとうに良い資料.

    • レポーティングに Word を使わせてるのがちょっと気に入らないが, 「統計やコンピュータが苦手が学生を念頭におく」とのことなのでそこは仕方ない. 私の rmdja も現状は万人に勧められる完成度ではない.

    • 経済学畑なので回帰分析は説明しているが分散分析は説明していない.

  • Better Late Than Never 『Aレベルの倫理学

    • Dimmock and Fisher “Ethics for A-Level” の翻訳 (元はMedium で掲載されたものbookdown で転載したらしい)

    • R とは全く関係ないという特異さが面白かったので挙げてみる

  • 土井翔平 (2020?) Rで計量政治学入門

    • Rmd ソースはここ?

    • わりとよく使うパッケージの基本操作全般

    • 計量政治学特有の話題はいまのところないがそのうち更新する予定らしい?

  • 三國志で学ぶデータ分析 (Japan.R 2019)

    • ネタ枠.

    • ND条項つけてたがこんなもの無断転載する物好きもいないと思うのでさっき外した

  • rmdja による多様な形式の日本語技術文書の作成

    • 宣伝. しかしまだまだ作りかけのとこが多くこのドキュメントも潜在的な書き間違えが多いと思う

  • bookdown技術同人誌作成に活用した人もいるので一般公開されていない文書もそれなりにありそう.