ill-identified diary

所属組織の見解などとは一切関係なく小難しい話しかしません

[メモ] R Markdown で書かれた R の資料を見つけたらここに書く


概要

見つける度に無計画に Pocket とかに保存してたがごちゃごちゃしてきたのでここに書くことにする. キリがないので Rpubs とかはナシ. 主に bookdown で作られた書籍形式の資料.

リストした資料は全体に目を通したわけではないのでクオリティを保証するものではない (メモの量でどれくらい読み込んでるかを察して欲しい). また, 将来翻訳する価値があるかという基準で探すことが多いので, ライセンス的に勝手に翻訳するのが難しいものはそこまで熱心に蒐集しない傾向がある.

Bookdown.orgbookdown で書かれたネット上のドキュメントをクローリングしてリンクしているので眺めているだけでもよさそうな資料はわりと見つかる.

リスト

出版年は初版公開時

無断翻訳不可

  • Wickham and Grolemund (2016) “R for Data Science,” O’reilly

  • Kuhn and Johnson (2018) “Feature Engineering and Selection: A Practical Approach for Predictive Models,” Chapman and Hall/CRC

    • 既によく知られている話を手堅くまとめた感じ.

    • Feature Engineering というタイトルだが単なる特徴量変換のカタログに終始せず, 精度メトリクスの特性についても言及があったので好感が持てる (この手の話はブログのようなカジュアルな媒体はもちろん専門書でもまじめに説明しているものは少ない). もう少し踏み込んでくれたらなお良いが 2018年公開 & Feature Engineering というタイトルだからしかたない.

    • Zheng and Casari の “Feature engineering for machine learning: principles and techniques for data scientists” よりこっちの翻訳を誰か出してほしかった.

  • Healy (2018) “Data Visualization: A practical introduction,” Princeton University Press

    • E. Tufte の提唱する視覚化の原理に強く影響を受けている.

    • 掲載されている全てのグラフに対して ggplot2ソースコードが公開されているためクックブックとして優れている.

    • 傍注をうまく使ったりレイアウトに凝っている.

    • 当初ブラウザの不具合かなにかで見られなかったので紙の書籍を買ってしまったのだが, こちらもレイアウトを工夫している

    • 後述の Wilke とどちらか1つでもいいので日本語訳をどこか出版してください. -> 2021/1/15 コメントより追記: 『データ分析のためのデータ可視化入門』としてもうじき出版されるらしい. 一昨年から翻訳誰か出してとロビイングしていた甲斐があったようだ

  • Wilke (2019) “Fundamentals of Data Visualization,” O’reilly

    • 著者は cowplot パッケージ開発をはじめ R の様々なグラフ関係のパッケージに貢献している人物.

    • Hearly とは対照的にグラフツールの使い方ではなくデータの視覚化の方法を論じる内容. Rの使い方はほぼ紹介していない.

    • 折れ線グラフ, 散布図といった基本的なグラフの使い方だけでなく, 地理空間データのプロットや確率をどう視覚的に表現するか, という話もある.

  • Boehmke and Greenwell (2019) “Hands-On Machine Learning with R,” Chapman and Hall/CRC

    • 最近の流行ってる機械学習アルゴリズムはだいたい R のコードつきで紹介している.

    • DNN もいちおう keras の使い方に1章割いている.

    • 理論的な説明もあまり抽象的なところに踏み込まず, 実用上どこに注意すべきかという判断材料としてエッセンシャルな部分だけうまく取り出せてる感じ

    • さらに理解を深めるための参考文献リストもしっかりしているので専門書としても完成度が高い

    • 開発の終わった caret とか発展途上の tidymodels とか異なるエコシステムのパッケージの使用が混在しているのが玉に瑕

    • これ + Feature Engineering ~ + α の内容を mlr tidymodels でやろうとして気がついたら rmdja を作っていた.

  • Hyndman and Athanasopoulos (2018) “Forecasting: Principles and Practice,” OTexts, 2nd Ed.

    • Forecasting というタイトル通り, いわゆる予測モデル的なアプローチの紹介 (prediction と言わないのは時系列モデルを扱うため)

    • 季節分解やARIMAや動的回帰モデルなど「古典的」な時系列モデリングの話がメイン.

    • 最近の流行を反映してか ブートストラップ的な方法の応用についても言及するようになった.

    • 新しく追加されたトピックは理論的な解説が少ないような...

    • 翻訳したい場合は連絡してとは書いてある

  • Pebesma and Bivand (2018) “Spatial Data Science

    • 地理空間統計モデルにフォーカスした資料は珍しい気がする
    • そこそこボリュームがあるが後半の統計モデルの解説は書きかけのところが多い

  • Biecek and Burzykowski (2021) “Explanatory Model Analysis: Explore, Explain, and Examine Predictive Models. With examples in R and Python.,” Chapman and Hall/CRC

    • 結構前から見かけた気がするが来月 (2月) 発売予定らしい

    • 中身はまだほとんど読んでない

翻訳・改変可

blogdown は私は使ってないので省略.

ライセンス不明

ライセンス明記してないということは無断翻訳はしないほうがいいだろう

日本語の資料

  • 森知晴『卒業論文のためのR入門

    • 学生時代の先輩だから贔屓しているわけではない. まっとうに良い資料.

    • レポーティングに Word を使わせてるのがちょっと気に入らないが, 「統計やコンピュータが苦手が学生を念頭におく」とのことなのでそこは仕方ない. 私の rmdja も現状は万人に勧められる完成度ではない.

    • 経済学畑なので回帰分析は説明しているが分散分析は説明していない.

  • Better Late Than Never 『Aレベルの倫理学

    • Dimmock and Fisher “Ethics for A-Level” の翻訳 (元はMedium で掲載されたものbookdown で転載したらしい)

    • R とは全く関係ないという特異さが面白かったので挙げてみる

  • 土井翔平 (2020?) Rで計量政治学入門

    • Rmd ソースはここ?

    • わりとよく使うパッケージの基本操作全般

    • 計量政治学特有の話題はいまのところないがそのうち更新する予定らしい?

  • 三國志で学ぶデータ分析 (Japan.R 2019)

    • ネタ枠.

    • ND条項つけてたがこんなもの無断転載する物好きもいないと思うのでさっき外した

  • rmdja による多様な形式の日本語技術文書の作成

    • 宣伝. しかしまだまだ作りかけのとこが多くこのドキュメントも潜在的な書き間違えが多いと思う

  • bookdown技術同人誌作成に活用した人もいるので一般公開されていない文書もそれなりにありそう.