ill-identified diary

概要

この記事は 2019/12/7 に開催された Japan.R の発表原稿である.

小難しいテクニックを使ったことをアピールせず, なるべく単純な方法だけで, データから何が言えるのか, 何を示せるのかを作業の流れに沿ってチュートリアル風に説明する, というのがコンセプトである. スクレイピングによるデータの取得, 加工, そして要約統計量の計算やグラフの見せ方, といった事柄はほとんどのデータ分析で必要な基礎技術だと思うので, 実践的な例になると踏んでいた. 当初は 5分間のLTの予定だったので要約統計量 (記述統計量) の見方とかだけを話すつもりだったが, 20分枠に変更したことに合わせてボリュームを増そうとしたらバランスが狂った感じになった. (小難しいことをしないとか言いながら色気を出してディープラーニングに手を出そうとしているのはご愛嬌ということで)

注意: 今回の内容は日本で普及しているフォントで表示できない文字が含まれるなどの写植上の制約から, フォントを埋め込んだ pdf 版を公開している. よって, このブログはあくまでコピーとなり, 不完全なものである.

例えば, 花園明朝Bをインストールしていないと表示できない文字などがあるし, 手作業で書き換えるのは疲れたのでこちらの修正はしない. リンク先のpdfをなるべく確認して欲しい.

2020/3/17更新: github pagesで原稿の再編集版を公開した. プログラムの解説が多少増えている. html/pdf/epubの3種類を用意している.

gedevan-aleksizde.github.io

キーワード

三國志, スクレイピング, 名寄せ処理, 自然言語処理 (?), 画像認識, ディープラーニング , 計量距離学習, 多変量解析

概要
- キーワード
イントロダクション
前処理
「三國志」シリーズの人材は年々無個性化しているのか?
補足: データビジュアライゼーションの教科書について
Japan.R 発表以降の追記
主成分分析の利用
魏・呉・蜀の勢力別ひいき
まとめ
参考文献

イントロダクション

三国志の背景

そこで今回取り上げる「三国志」について, 簡単に解説する.

魏から西晋の時代の歴史家である陳寿によって著された, 魏書・呉書・蜀書のいわゆる三国時代の歴史書を総称して三国志, 通称『正史三国志』と呼ばれる. これは正史, つまり当時の王朝によって正統な歴史書と認定された書物であるから, 必ずしも「真実」が描かれているとは限らない. 現在に残る正史三国志は, 南朝時代の裴松之の註解が付されており, 王朝が変わった後世ということもあってより政権に対して批判的である.

『三国志演義』とは正史三国志や, それにまつわる無数の民間伝承や演劇「三国志平話」を羅貫中が編纂したものである. 本場である中国ではそれ以降も多くのバージョンが作られ, 主要な底本も複数存在する. 20世紀になってからも『反三国志』(周, 1919)といったメタフィクション作品が作られている. 三国志演義の成立史だけでも膨大な研究が存在するはずだが, ここではそれに触れない.

渡辺 (2011)によれば, 三国志演義の「演義」とは, 義を演繹する, 義を敷衍するという意味であり, 当時の中国における倫理とされていた儒教に規定される道徳心を民衆に教えるという意図がある. よって, 当時の社会情勢や政権の意図が大きく反映されており, 道徳に悖る行動をした人物はみじめに破滅し, 道徳に則った行動を取るものは讃えられるという勧善懲悪の筋書きになっている*1. これは陳寿による史書, いわゆる「正史三国志」とはかなり異なる記述である.

渡辺 (2011) によれば, 『日本書紀』の編纂の時点で三国志の影響が見られると言うから, 日本にはかなり早くに伝わっていた. しかし近年の日本では吉川英治の『三国志』(吉川, 1939)が有名ではないだろうか. これは三国志演義をもとに吉川が脚色したものであり, 中国本国の三国志演義や正史三国志に忠実な翻訳作品ではない. 横山光輝の漫画『三国志』も, 概ね吉川英治の内容に準拠している.

また, 漫画作品では横山光輝作品の他, 李學仁・王欣太の『蒼天航路』も有名である. これまで悪役とされることが多かった曹ソウ操ソウを主役としている*2など, 従来の三国志人物像に対するメタな作風が特徴である. その他にも日本の大衆文化における三国志をモチーフにした創作には枚挙に暇がない*3.

一方で, 歴史書としての三国志, つまり『正史三国志』が日本で紹介されたのは比較的最近であり, 少なくとも民間向けでは1977年に筑摩書房によって魏書の一部の翻訳*4が出版され, 82, 89年に続いて魏書の残りと蜀書*5, 呉書*6がそれぞれ刊行されている*7. また, 三国志演義よりも正史に取材して書かれた作品としては, 陳舜臣の『秘本三国志』(陳, 1974)*8 北方謙三の『三国志』北方 (1996), 宮城谷昌光の『三国志』(宮城谷, 2004)がある*9.

このように, 史書でも創作でも, 書かれた時代や地域によって三国志の人物の扱われ方が異なる.

コーエーテクモのゲーム『三國志』シリーズ

コーエーテクモ (旧, 光栄) 社はこの三国志をモチーフにしたゲーム『三國志』シリーズを発売している. 1作目は1985年で, 最新のものは2016年の『三國志 13』である. コーエーテクモは「歴史シミュレーションゲーム」と銘打っているが, 作品によっては, 中国大陸に割拠する勢力の1つを操作し天下統一を目標とするターン制戦略ゲームであったり, 登場人物の一人となって立身出世を目指すロールプレイング・ゲーム的要素の強いゲームだったりもする.

『三國志英傑伝』『三國志孔明伝』『三國志曹操伝』といったナンバーのないタイトルもある.

また, 8以降の作品では, おまけ要素として三国志外の時代の人物, 例えば管夷吾 (管仲) や楽毅, 藺相如といった春秋戦国時代の英雄や, 時系列では後になる南北朝時代の高長恭 (蘭陵武王), モンゴルのチンギス=ハン (成吉思汗), 南宋の岳飛などが登録されている*10. 一方で最新作の三国志13 (2016年発売) では戦国時代末期の人物が増えており, これは原泰久の漫画『キングダム』の人気を反映していると思われる. さらに2020年発売予定の最新作14では, 田中芳樹原作『銀河英雄伝説』のキャラクタを登場させるようだ*11.

問題提起

正史と演義での人物の評価両方を取り入れようとすると, どうしても矛盾が生じる. 例えば, 演義では曹操は徹底して「奸雄」つまり小狡い悪党として描かれ, 一方で劉リュウ備ビは利益より義を優先する道徳の手本のような人物として描かれる. しかし歴史はそう単純ではなく, 正史での記述は大きく食い違う. もちろんそれは, 魏とその後継王朝である西晋にとって都合の良いように描かれたという側面もある. しかしいま関心があるのは, なにが史実か, なにが真実かではなく「人々の認識がどう変わったか」である.

矛盾する複数の物語を公平に取り入れようとするならば, 人物の評価はいいとこどりにするか, 悪いところどりにするしかないだろう. よって, これまでの物語とは人物像の異なる正史三国志での描写が日本人に膾炙されるようになれば (年表を図1に示す.), それまで三国志演義で悪役として描かれ評価の低かった人物たちの評価があがり, 結果として『三國志』シリーズでステータスの差別化ができなくなっていくと予想する. 今回は, この仮説を検証するまでの過程を「実践的なデータ分析のチュートリアル」として記録する.

f:id:ill-identified:20191209224750p:plain — 図1: 現代日本における三国志文化の年表

先行・関連研究

たぶんこんなバカなこと考えるやつは過去にも例がないだろう. よって本研究の新規性・独自性は疑いようがない*12.

前処理

三國志シリーズの登場人物のステータス情報は, インターネット上のいくつかの個人サイトから取得した.

コーエーテクモ公式の資料集も存在するが, 全て紙媒体であり, 購入および転記のコストを考えて利用しなかった.

スクレイピング

まずは rvest パッケージで各ページを取得した. rvest はパイプ演算子でスクレイピングした html (xml) ノードデータを取得できるため, 使い勝手が良いパッケージである. 取得したページを rvest や tidyverse を使い整然データとする.

しかし, これらのサイトは全て管理者が異なり, 非公式のものであるからフォーマットも違うため, 作品ごとに異なる工程が必要である. 多くは <table> タグを使って掲載されているため, rvest::html_table() 関数を使えば概ねうまくいくが, 特に手間がかかったのは, 表が整然化されていない三國志9と, 表の背景色でデータを表現していた三國志12のページである. 前者は一つのセルに複数の項目が文字列として入っていた (図2) ため, stringr::str_split_fixed() など文字列を処理するパッケージを駆使して分解する必要があった. 後者は, 1名の人物あたり2行で掲載し, なおかつ一部の項目を文字ではなく背景色の塗りつぶしで表現していた (図3). そのため, テキスト情報とタグの属性をそれぞれ別に取得し, 結合する必要があった.

さらに, ここで一部名寄せ処理を行っている. というのも, 三国志には数組の同姓同名の人物がいるからである.

張チョウ温オン: 東漢 (後漢) の高級官僚と, 孫呉に仕えた人物
張チョウ闓ガイ: 陶トウ謙ケンに仕えた武将と, 袁エン術ジュツに仕えた武将
張チョウ南ナン: 袁エン紹ショウに仕えたのち曹操に降伏した武将と, 蜀の武将
馬バ忠チュウ: 呉の孫ソン権ケンに仕えた武将と, 蜀の武将
李リ豊ホウ : 袁術に仕えた武将と, 蜀漢の武将李リ厳ゲンの子, そして魏の人物

これらは識別できなければならないため, 名前の末尾に「孫呉」「東漢」などと所属勢力を括弧書きで追加した. ただし元のページでは必ずしもどの人物か同定されていないため, 生没年や字の有無, ステータスの数値等から判断した.

この作業のため, 各作品内で名前に重複がないか確認したところ, これ以外にも名前を誤って重複しているものが見られた. ステータス値や字, 生没年などから推理して修正した. この時点で, 7,115件, 1,120名の人物データが入手できた.

ここで説明した処理は scraping.R と tidying.R でなされている.

f:id:ill-identified:20191209225018p:plain — 図2: 三國志9 の人物一覧ページ

f:id:ill-identified:20191209225057p:plain — 図3: 三國志 12 の人物一覧ページ

さらなる名寄せ処理

今回の情報源は, 複数の個人サイトによるもので, フォーマットも全く異なる. さらに, 表記にもかなりゆらぎがある. 単なる誤変換であるもの, 原典である『正史三国志』と『三国志演義』の間でもすでに食い違っているものなど, 原因は様々である. 使用するデータの品質向上のため, 当初は手動でいくつかの方法を試した.

三国志以外の登場人物を除外する

既に述べたように, 春秋戦国時代や, 魏晉時より後代の人物が隠し要素として存在する. 三国志演義が史書とは異なる創作であり, 真実がなんであるかを問題としない以上, 2世紀末の中国でチンギス=ハンが覇を唱えようが織田信長が乱入しようが, 皇帝カイザーラインハルト率いる宇宙艦隊が遠征してこようが, 原則を言えばあらゆる創作を「三国志」として認めなければならない. しかし今回はあくまで, 三国志の人物の評価の変遷を知るのが目的である. こういった企画で採用される人物はその時代を代表する英雄であるため, しばしば非常に高いステータス値が設定されている. そういう人物が後期の作品では数十人ほど登録されており, 要約統計などに対する影響はかなり大きい. よって, 今回は『三国志演義』『正史三国志』『反三国志』および『花関索伝』で言及される人物*14だけを対象とすることにした. この処理によって179名が除外された.

漢字が使われていない名前を検査する

まず, 正規表現で漢字以外の使われている人名を探した. 機種依存文字をカタカナ等で置き換えていたものを見つけた手動で修正した. 有名な例では, UTF-8 が普及する以前は張チョウ郃コウの「郃」の字に対応した文字コードがなかったため, インターネット上でしばしば「合β」と表記されていた. この方法では, , , , など同様の原因で, 補正すべき表記のゆらぎが発生している人名を122件発見した.

3文字以上の名前を検査する

三国志の時代では, 多くの人名は姓名が1字づつであることが多く, 3字以上の名前は珍しい. 夏侯, 諸葛, 司馬, 公孫など2字の姓は限られている. 名が2字以上になる人名も 郭カク攸ユウ之シ , 戯ギ志シ才サイ などどかなり限られる. それ以外で3字以上の名前の多くは, 於夫羅, 卑弥呼, 都市牛利 など, 非漢民族の発音を当てたものと思われる. そこで, 名前が3字以上のものも手作業で確認してもさほど手間にならないと判断し確認した. その結果, 以下のような表記のゆらぎを19件見つけた. 事例の一部を抜粋する.

許キョ劭ショウ/許子将. 子将は字である*15.
金キン環カン三サン結ケツ/金環結: 後者は三国志3でのみ見られた. 人名に3字までの制約があったのだと思われる.
祝シュク融ユウ/祝融夫人: これは誤りではないが, 同一人物の表記が異なるとその後の処理に支障を来す. 「夫人」を除外した.
秦シン宜ギ禄ロク/秦誼: そもそも史書で表記のゆらぎがある.
邢ケイ道ドウ栄エイ/刑道栄: 「邢」をカタカナで置き換えるケースは既に見たが, 「刑」で置き換えているケースも発見.
劉リュウ豹ヒョウ/左賢王: 左賢王は南匈奴の称号. 作中のテキストから, 史書で左賢王の地位にあった劉豹と同定される. 劉豹は於オ扶フ羅ラの子.

ただし, 許劭/許子将 や, 秦宜禄/秦誼の組み合わせは, 三国志の知識がなければただちには分からない.

さらに, 本来の意図ではないが, 3字以上の人名に誤記を見つけた. その抜粋は以下.

毌カン丘キュウ倹ケン/母丘倹: 子弟である秀, 甸にも同様の誤りが見られた.
諸ショ葛カツ瑾キン/諸葛謹: オウ偏の瑾の字があまり使われないための誤記と思われる.
太タイ史シ享キョウ/太史享: 字の違いは微妙である.

出現頻度の少ない人名を検査する

字数の多い名前での表記のゆらぎはすでに確認できた. しかし, 3字以上の名前だけを見ても, これだけ表記にゆらぎがあるならば, 2字の名前でも同様にゆらぎがあると予想できる. そこで, シリーズ全作品のデータを結合した上で, 出現回数が2回以下のものを確認した. これで, 誤字をいくらか発見できると考えた. しかし, 実際には知名度の低い人物が多くピックアップされただけであり, ここから表記のゆらぎを見つけるのは難しい. 誤記・誤変換ならばソートしても対になる人名が近くにくるとも限らない.

そして機械学習へ

そこでさらなる名寄せ処理として, どうやって互いに類似する人名を取り出すか, ということを考える.

多くの自然言語処理の研究では, 文章を対象としている. しかし, すでに述べたように人名のほとんどが2字, 多くとも4字である. 形状の似ている文字を見つけるということから, 画像認識の技術を応用できないか考えてみる. 画像認識の一種としての手書き文字の認識は昔から研究されている. しかし, これは癖のある字をどう認識するかという教師あり学習の問題として扱われることが多いため, 今回の問題と合致しない.

今回の問題設定に合致するような先行研究がなかなか見つけられないため, 自分なりのアイディアとして, 人名の文字を画像データと見なし, 画像間の類似度を計算することで似たような字を見つける, と言う方法を採用した. これは表記ゆれを確実かつ漏れなく発見できるわけではないが, 総当りよりも効率よく見つけられると考えられる.

画像として表示するにはフォントが必要である. 入力者がどのフォントを使っていたかは特定できない. また, 一部の人名は標準的な日本語フォントに対応していないものもある. 具体的には, 呉の景帝の太子の一人である「孫ソン𩅦ワン」である. 「𩅦」の字は Unicode では CJK統合漢字拡張Bのカテゴリに含まれており*16, 日本語フォントで対応しているものは少ない. 中国語圏で普及しているフォントには対応しているものもあるが, 今回の目的は日本人が日本語環境で入力したデータベースの名寄せだから, できる限り日本風のフォントを使う必要がある. これに対応する日本語フォントは花園明朝Bである. よって, 文字画像にはHanazono fontsで提供される花園明朝AおよびBを使うことにした.

まず, 2つの人名文字列のビットマップ情報*17に変換する. それから, ビットマップ情報から特徴量を取り出す.

特徴量の取り出し方は, 今回2通りの方法を試した.

ビットマップ単位の情報をそのまま使う.
鴨下, 奥村, 高橋, 増村, & 矢野 (1998) の方法に即して特徴量を作成する.

(1) の方法では, 特徴量は $32\times128=4096$ 次元の数値となる*18. (2) の方法は, ピクセルの並びの全ての行・列それぞれに対して, 背景色・文字色の変化の回数 (これを「微分」と呼ぶ), 文字色の割合 (これを「積分」と呼ぶ) を計算する方法である. これによって, $(32+128)\times2=320$ 次元の特徴量が得られる (実際に使用したのは $317$ 次元).

最期に, 2つの文字画像の特徴量ベクトル $\boldsymbol{x},\boldsymbol{y}$ について, 距離 $d(\boldsymbol{x},\boldsymbol{y})$ を計算する. 今回はこれを min-max 正規化したものを, 類似度 $s$ として, 値の大きい順にならべる.
$\begin{align} s(x,y):= & \frac{d(x,y)-\min d}{\max d-\min d}\end{align}$
なお, このような類似度の求め方はテンプレートマッチングと呼ばれる(糟谷 & 山名, 2006). $d(x,y)$ には, ユークリッド距離
$\begin{align} d(\boldsymbol{x},\boldsymbol{y}):= & \left\Vert \boldsymbol{x}-\boldsymbol{y}\right\Vert _{2}=\sqrt{(\boldsymbol{x}-\boldsymbol{y})^{\top}(\boldsymbol{x}-\boldsymbol{y})},\end{align}$
マンハッタン距離
$\begin{align} d(\boldsymbol{x},\boldsymbol{y}):= & \left\Vert \boldsymbol{x}-\boldsymbol{y}\right\Vert _{1}=\sum_{k}\left|x_{k}-y_{k}\right|,\end{align}$
で計算した. 両者は次元の大きさが全く異なるが, 提示された結果はかなり似ている. 上位30件を確認して発見した表記のゆらぎを表1に抜粋する.

表1: M類似度上位10件, 誤字を強調
干糜	于糜	4.94	4.79
車胄	車冑	4.87	4.93
王凌	王淩	4.81	5.03
夏侯威	夏侯咸	4.73	4.79
呉鋼	呉綱	4.65	4.79
薛翊	薛珝	4.59	4.58
邢道栄	刑道栄	4.58	4.00
全禕	金禕	4.55	4.47
王匡	士匡	4.52	4.45
劉璝	劉潰	4.46	4.47

特に紛らわしいのは表2である. これは文字を拡大しないと気づきづらい.

表2: 発見できた紛らわしい表記のゆらぎ例
正	誤	解説
車シャ冑チュウ	車胄	「冑」の下
関カン彝イ	関彜	「米糸」と「米分」
鍾ショウ会カイ	鐘会	ではない

新たに多くの表記ゆれを発見できたが, 一方で誤検知もある. 表2では, 夏カ侯コウ威イと夏カ侯コウ咸カン, 全ゼン禕イ>と金キン禕イ, 王オウ匡キョウ>と士シ匡キョウの組み合わせは別人物である.

今回の2つの方法はいずれも, 1字同じだけでもかなり一致度が高くなってしまう. 結果として勘でやったほうが修正の必要な箇所を多く見つけられたので, より精度が必要である. 一方で, 鴨下 et al. (1998) はかなり古い研究で, 文字のビット数が小さく, さらに特徴量を大きく削減するなど計算量を削減しているが, 上記の結果とあまり変わらない結果が得られた.

そもそもなぜ表記ゆらぎが起きるかと言えば, 登録時点でのミス, 原作時点でのミスである. 前者は音や形状の似た字への誤変換, 普及している日本語フォントではカバーしていない, あるいは IME が対応していない字 (いわゆる機種依存文字) の代用, 後者は同一文献や, 創作物ごとのゆらぎがある*19.

例: 原作からしてゆらぎがある*20

李リ堪カンと李湛 (三国志演義と吉川三国志)
楊ヨウ脩シュウと楊修
雷ライ銅ドウと雷同
陳チン羣グンと陳群
田デン豫ヨと田予

例: 機種依存文字の影響で間違えやすい字: 部首が違う

劉リュウ璝カイ (正) 劉潰 (誤): 「璝」は日本語ではほぼ使われない
王オウ凌リョウ (正) と王淩 (誤): ニスイ偏が正しい.
鍾ショウ会カイ (正) と鐘会 (誤): カネではない*21.
歩ホ騭シツ (正) と歩隲 (誤): コザト偏の位置

似ているが別人の例として, 既に紹介したもの以外にも以下のようなものがある.

鄧トウ艾ガイと鄧トウ芝シ
桓カン楷カイと桓カン階カイ

以上の傾向から, 字形の平均的な一致度ではなく, 部首単位での類似を考慮して類似度を計算することができれば効率的であると思われる. また, 教師データも ground-truth なモデルも用意できないため, 「なるべく少ない労力で, たまたまでもうまく表記ゆらぎを見つけられるような類似度の求め方」が得られれば良い.

以上の処理は, image_recognition.R で実行している.

[草稿] ディープラーニングでなんとかできないか?

このセクションは昨日思いついて試してみたけど時間がたりなかったので書きかけです. 完了していないタスクです. ディープラーニングじたいほとんどやってないので話半分で読んで欲しい.

画像認識と言えば最近はニューラルネットワークを使った話が流行っているので, 何か応用できるものがないか探してみた. 機械学習の問題としてみれば教師なし学習で, かつ2点間の類似度を出せるものがよい. ここまで試したのは2つの文字画像のピクセル $\boldsymbol{x},\boldsymbol{y}$ 間の距離である. 例えばユークリッド距離で,

$\begin{align} d(\boldsymbol{x},\boldsymbol{y}):= & \sqrt{\left\Vert \boldsymbol{x}-\boldsymbol{y}\right\Vert }_{2}\end{align}$

を2つの画像の類似度としてきた. しかしこれでは限界があることがわかったので, なんらかの適切な特徴量変換器 $\boldsymbol{f}$ を挟んで,
$\begin{align} s(\boldsymbol{x},\boldsymbol{y}):= & \sqrt{\left\Vert \boldsymbol{f}(\boldsymbol{x})-\boldsymbol{f}(\boldsymbol{y})\right\Vert }_{2}\end{align}$
のような類似度計算ができるようになればいい. 機械学習の研究では, これを計量距離学習 (metric learning) という*22.

ここでいくつか関連しそうな研究を紹介しておく.

J. Wang et al. (2014), Hoffer & Ailon (2015), Sanakoyeu, Bautista, & Ommer (2018), Turpault, Serizel, & Vincent (2019) などを参考にすると最近は計量距離学習では triplet network と呼ばれるモデルが流行しているらしい.

Zhang & Komachi (2019) では, CHISE プロジェクトのデータベースから, 文字の部首情報を取り出して教師なしニューラル機械翻訳 (UNMT) をしている*23. しかしこれは画像認識ではない

M. Liu, Rus, Liao, & Liu (2017) は音素も考慮しているが, 今回は日本語での入力の問題なので少し違う. あと教師あり学習.

”In words, this encodes the pair of distances between each of x+ and x− against the reference x.“

J. Wang et al. (2014), Hoffer & Ailon (2015) 前者は多クラス分類だが, 後者はランキング問題

なお私は計量距離学習というトピックをこれまで全く知らなかった. 基本的な考え方を理解するために今回初めて Bellet (2013), Bellet, Habrard, & Sebban (2014) などを参照した程度である (よって見落としているだけということもありうる). このサーベイ・チュートリアル資料で紹介されているアイディアの多くは教師ありないし半教師あり学習だが, 今回は教師ラベルを作るのが面倒な場合はどうするかというのが問題である. ここでは主に Turpault et al. (2019) の提案する半教師あり学習 *24をもとに試してみる. まず, 従来的な2点の比較は双生児 (siamese) ネットワークと呼ばれる:

$\begin{align} s_{\mathit{siamese}}(\boldsymbol{x},\boldsymbol{y}):= & \left\Vert f(\boldsymbol{x})-f(\boldsymbol{y})\right\Vert _{2}.\end{align}$

一方で, 基準点 (anchor あるいは query と呼ばれる) $\boldsymbol{x}^{a}$ に対して正例 $\boldsymbol{x}^{p}$ , 負例 $\boldsymbol{x}^{n}$ の3対 (triplet) $(\boldsymbol{x}^{a},\boldsymbol{x}^{p},\boldsymbol{x}^{n})$ を考慮したのが triplet network である.
$\begin{align} s_{\mathit{triplet}}(\boldsymbol{x},\boldsymbol{x}^{p},\boldsymbol{x}^{n}):= & \begin{bmatrix}\left\Vert f(\boldsymbol{x}^{a})-f(\boldsymbol{x}^{p})\right\Vert _{2}\\ \left\Vert f(\boldsymbol{x}^{a})-f(\boldsymbol{x}^{n})\right\Vert _{2} \end{bmatrix}\end{align}$

これら3点の相対的な距離をもとに学習するというのが triplet network のアイディアになる. さらに, J. Wang et al. (2014) に従って triplet 損失を
$\begin{align} L_{\mathit{triplet}}(\boldsymbol{x}^{a},\boldsymbol{x}^{p},\boldsymbol{x}^{n};\delta):= & \left\lfloor \left\Vert f(\boldsymbol{x}^{a})-f(\boldsymbol{x}^{p})\right\Vert _{2}-\left\Vert f(\boldsymbol{x}^{a})-f(\boldsymbol{x}^{n})\right\Vert _{2}+\delta\right\rfloor \end{align}$
で定義する.

しかし今回は教師ラベルがないため, $\boldsymbol{x}^{p}$ , $\boldsymbol{x}^{n}$ をどう選べばいいかが分からない. そこで, Turpault et al. (2019) の提案するように, 特徴量 $\boldsymbol{x}$ の距離で正例負例を与える.

補足: DBpedia を利用した二重チェック

教師なし学習による探索だけでは心もとないので, Wikipedia の記事を使った二重チェックを行った. DBpedia Japaneseとは, Wikipedia を構造化したデータベースで, SPARQL によってデータを取得できる. 例えばプログラム1 のようなクエリになる.

PREFIX dbpedia: <http://ja.dbpedia.org/resource/>
PREFIX dbp-owl: <http://dbpedia.org/ontology/>
PREFIX rdf: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX category-ja: <http://ja.dbpedia.org/resource/Category:>
SELECT DISTINCT ?article, ?text
WHERE {
         ?article dbp-owl:wikiPageWikiLink category-ja:三国志の登場人物 .
         ?article rdf:comment ?text .
}

プログラム1: SPARQL のクエリ例

Rでは, SPARQLパッケージが用意されている.

「三國志」シリーズの人材は年々無個性化しているのか?

以上で一旦名寄せ処理を切り上げる.

次に, 各作品で, 新しく登録された人物と除外された人物が何人かを表してみる. 図4では, 前作から追加された人物が in, 逆に除外された人物を out, 続投している人物を keep で表した. つまり, in + keep が各作品に登場する人数である.

からは, 4, 12 で前作より減っているものの, 基本的に登場人物が増えていることがわかる. よって, 少しづつ正史三国志に記述のある人物が増えていることが分かる*25.

f:id:ill-identified:20191209230123p:plain — 図4: 登録・除外フロー

を含め, 以降の画像は全て ggplot2 だけで作成した. ただし, カラーパレットは ggtheme のものを使うと良い. ここでは colorblind シリーズを使用している.

要約統計量を計算するのに役立つのが skimr パッケージである. 要約統計量を表示する関数は, 組み込みの summary() を始めいくつもあるが, skimr は

summary()よりも見やすい
group_by() したデータを与えるとグループ別集計してくれる

といった便利さからおすすめする((発表の反響を踏まえての追記: 組み込みの summary() より見やすい表を提供するパッケージは他にもある. niszet 氏のブログにも『(R) summarytoolsパッケージ、便利そう… - niszetの日記』という記事がある. 私が skimr を挙げた要因として, プレーンテキストとして扱えるという点も大きいことを補足せねばならない. というのも, 私が資料を作成するときはほぼ LaTeXなので, 表形式に変換しやすい形で, 例えば Hmisc::latex() で変換しやすい形式で出力してくれる skimr を薦めた.)). ただし日本語の情報が少ない. 私の知る限り『TokyoR 72 LTskimrとsummarytoolsパッケージの紹介』の作者が唯一言及しているのみで, しかも現在はさらに仕様が変わっている.

仕様が変わったのは表示する統計量を決める部分である. 以前は skim_with() でグローバルに変更していたが, 現在は関数ジェネレーターのような仕様になっている (プログラム2). 出力例が表3である.

library(moments)
my_skim <- skim_with(numeric = sfl(skew = skewness, kurto = kurtosis, hist = NULL), append = T)
DATA_FRAME %>% group_by(title) %>% my_skim()

skimrによる表 (一部)
1武力15.0036.0057.5078.75100.0057.3724.63-0.001.80 2 武力11.0041.0061.0074.00100.0058.7821.33-0.092.13 3武力15.0052.0064.0071.00100.0061.4017.08-0.463.05 4武力13.0049.2566.0075.00100.0061.3920.25-0.562.63 5武力7.0044.0067.0076.00100.0060.2622.74-0.642.47 6武力16.0042.7562.5073.00100.0058.3620.00-0.322.27 7武力11.0045.2563.0074.0098.0058.7920.37-0.502.26 8武力10.0046.0065.0072.00100.0058.6820.83-0.702.59 9武力0.0036.0065.0072.00100.0055.6324.35-0.662.33 10武力1.0039.0064.0073.00100.0056.4323.37-0.672.45

しかし, 今回は見るべき項目が多いので, グラフで見やすくする必要がある.

そこで, 要約統計量の推移を折れ線グラフで表したのが図5である.

f:id:ill-identified:20191209230850p:plain — 図5: シリーズごとの要約統計量の推移

特に気になるのは, レンジの変化である. 三國志シリーズのステータスは基本的に1~100の数値だが, 実際には最小値と最大値の幅が作品ごとに異なることがわかった. そのため, 値域を統一するためにシリーズごとに min-max 正規化を行う. 今回は, 見やすさのため, レンジが100になるよう, 以下のような式で調整している.
$\begin{align} z:= & 100\times\frac{x-\min(x)}{\max(x)-\min(x)}\label{eq:range-normalize}\end{align}$

調整後の要約統計量が図6である. ここから, 後期の作品ほど平均が上昇していること, そして分散が低下していることがわかる. 分散の低下という意味では, ステータス値の多様性が乏しくなり「没個性化」しているともとれる. しかし, 要約統計量から得られる情報が全てではない.

f:id:ill-identified:20191209231006p:plain — 図6: min-max 正規化後のシリーズごとの要約統計量

ここからは, いくつかの切り口からデータを見ていく. まずは, 4名の人物について, シリーズを通してステータスがどう変化しているかを見る. 主要人物は記述が多く, 演義と正史での評価の差異を細かく説明するのが大変である. そこで, 主要人物ではないが, 差異の分かりやすい人物を挙げる.

華カ雄ユウ
- 正史: 「董トウ卓タクが派遣した胡コ軫シンの配下として孫ソン堅ケン軍に討たれた」としか書かれていない(呉書孫堅伝)
- 演義: 董卓配下の猛将で, 孫堅を敗走させる. しかし関カン羽ウに即敗北する (三国志演義)
関カン興コウ
- 正史: 「父関羽の死後, 将来を嘱望されるも数年後病死」のみ (蜀記)
- 演義: 父の仇討ちに成功し, 数度の北伐で活躍
曹ソウ真シン
- 正史: 諸ショ葛カツ亮リョウの北伐に対する防衛を指揮し, 二度退ける
- 演義: 北伐では終始諸葛亮に翻弄され, 最期は罵倒され憤死した
李リ通ツウ
- 正史: 曹操の本拠地, 豫州南部を守り抜く (李通伝)
- 演義: 馬バ超チョウと一騎打ちし即敗北する

図7では, 「演義で活躍の盛られている」代表である華雄, 関興はシリーズを通してあまり変化していない. すくなくとも低下しているようには見えない. 一方で, 李通, 曹真は徐々に上昇しているように見える.

f:id:ill-identified:20191209231206p:plain — 図7: 4名のシリーズを通した変化

ということは, もしこれが全体の傾向にも当てはまるのなら, 三国志演義で活躍が誇張されている人物の評価はそのままで, 正史の見直しによって従来ステータスの低い武将の値が底上げされれば, 「没個性化」になりうる. 全体の傾向ならば分布にも現れるはずである. そこで, シリーズの作品ほとんどで存在するステータス項目である, 「武力」「知力」「魅力」*26「政治」を確認してみる. シリーズ間の比較のため, 分布確認にはヒストグラムを使うこともできるが, ここでは geom_violin() を使ってバイオリン図を作図した(図8).

f:id:ill-identified:20191209231417p:plain — 図8: 主要能力の作品別バイオリン図

f:id:ill-identified:20191209231430p:plain — 図8: 主要能力の作品別バイオリン図

バイオリン図で書くことで, シリーズごとにステータスの分布形状が変動していることがわかった. そして興味深いことに, 後期の作品ほど分布が二極化している. 平均より大きな値域で大きめの峰を, 平均より小さい値域でも小さい峰が発生している. 図7の歪度の推移から, なんらかの形で分布が歪んでいることは予想できたが, 具体的な形状は実際にグラフにしないと分からない.

この分布の二峰化の意味するところを知るため, 武力と知力の散布図に, シリーズ通しての登場回数で色分けしたものを図9に示す. すると, 分布の大きい峰に対応する値では, 登場回数の大きい人物が集中しているように見える. しかし一方で登場回数の少ない人物の分布も密集しており, これだけでは判然としない. さらにこれだけでは他のステータスとの関係も同時に見ることができない.

f:id:ill-identified:20191209231846p:plain — 図9: 登場回数, 初登場作品で色分けした散布図

f:id:ill-identified:20191209231933p:plain — 図9: 登場回数, 初登場作品で色分けした散布図

このセクションは analysis.R で実施している.

補足: データビジュアライゼーションの教科書について

グラフの書き方にも流儀がある. 3D 円グラフはやめよう*27, ユーレイ棒グラフはやめよう*28, という話は昔から喚起されているので知っている人も多いかもしれない. そして体系的なグラフ作成のルールというのがあるのだが, それ含めてをここで説明するのは大変だ. そのうち挑戦してみたくはある.

グラフの書き方に関する本は Tufte (2001) が古典的? であるが, 最近のものとして Healy (2018) は Tufte (2001) の思想を受け継ぎつつ全ての図に対して作図した ggplot2 によるコードを公開しているため, タイトル通り ”practical“ である. 一方で, これらはいずれも日本語訳がない*29. Tufte 流の理論に則ったという本では, 藤 & 渡部 (2019) が比較的近い. ただしグラフの例は紹介されているものの実際にどのようなソフトウェアで作成するかといったことは書かれていない.

Japan.R 発表以降の追記

図9は, 主張したいことに対して不明瞭なグラフであった. 結局, 主要なステータスの平均値をバイオリン図にしたものがもっとも端的に主張したいことを伝えられる. 図10の上段は, ステータス値平均*30をタイトルごとにバイオリン図に表したもので, 下段は分布に対応する標準偏差である.

f:id:ill-identified:20191209232157p:plain — 図10: シリーズごとの主要パラメータの平均値分布

明らかに分散が減少傾向にあり, かつ後期のシリーズほど尖度が上昇している*31. 個別のパラメータでは多峰性が見られたが, これは後期の作品ほど, 武力や知力が極端に低い設定の人物が増えたのかもしれない. さらに主要パラメータの要約統計量について確認してみる. 個人単位で, 主要パラメータの標準偏差とレンジを求め, それをタイトルごとにバイオリン図にしたのが図11になる. ここでも, レンジや標準偏差の分布は初期の作品ほど裾野が厚く, 後期のものは比較的小さな値に集中している. つまり初期の作品ほど人物の評価項目ごとのばらつきが大きいということが分かった.