Steamワークショップでは9割以上が評価しても星3の評価が付けられる

要約

ほんのとりとめのない趣味の話を日記的に書くつもりだったが中身が膨張したのでこっちに書いた.

Steamワークショップはストアと違い, 表示されるレートは「プラス評価をした人の割合」とはかけ離れている.
DL数または評価者数の少ないmodは, プラス評価が90%超えでも星3とか4とかにされる
DL数または評価者数が少ないmodが過小評価されやすいシステムになっていると推測されている.
Wilsonスコアを利用しているという仮説を検証したところ, それよりもさらに, 評価者数の少ない作品に対してシビアであることがわかった
問題の議論はしたが, 現行のレーティングの仕組みを特定していないし, 改善案も提示していない
~~自作modが妙に評価レートが低いことがなんとなく不満だったが, 調べているうちに変な主張や議論が展開されていることのほうが不満になってきた~~
~~日本語修正modみたいな日本語ユーザーしかDLしないようなmodは低評価になりやすいので辛い~~

要約
問題
他の意見の調査
- ワークショップの評価ルールに関する憶測
- ワークショップの適切なレーティング方法に関する意見
Wilsonスコアの応用に関する検討
- Wilsonスコアの下限の使用の正当化の根拠はなにか
- 実際のワークショップのレーティングはどうなっているのか
結論
自分語り

問題

今どきはいろいろなサイトにレビュー機能と, レビューを反映したレーティング機能がある. アマゾンなど多くのサイトで, 星5つの5段階評価を導入しているものを見かける. ゲームの改造プログラム (mod) を配布するSteamワークショップでも, modが最大5つの星でレーティングされるが, Steamワークショップではユーザーが5段階評価しているわけではない. ユーザーができることは,

プラス・マイナスのどちらか一方の評価を下す
なんらかのポイントを消費してバッジを送る
コメント欄に感想を書く

くらいしかない. そのため, Steamワークショップで配布されている mod に表示されている星は, プラス評価している人の割合で決まると判断するのが自然ではないだろうか. しかし, そうではない.

まず, 評価者数あるいはダウンロード数が少ないと星は表示されない可能性がある. 私が公開しているmodも, そもそも利用者が少ないので星が表示されているmodは2つしかない. 2024/8/1時点では, それぞれ以下のようになっている. 星と評価者の数は, 評価者が少ないうちは公開されないようだ. 一定数を超えると公開され, その内訳はmodの作成者にのみ公開されるようだ.

Historical Name Expansion ★★★★☆ (星4), 146 対 6 (プラス評価96%)
Correct Localization JP - Text *1 ★★★☆☆ (星3), 23 対 2 (プラス評価92%)

いちおう証拠のスクリーンショットも貼っておこう.

「日本語修正に不満があるならマイナス評価して終わるんじゃなくて具体的にどこが問題だったか教えて」って書いたのに… (日本語が読めない人の可能性はある)

Reddit でも, 同様の報告をしている人がいた. だいたい私の Correct Localization JP と同様に, 20-30程度の評価者数かつプラス評価が90%超えなのに星3にされているという.

評価者数が100程度あり, なおかつ90%以上がプラス評価していても, ★5にはならないという報告もある.

https://www.reddit.com/r/Steam/comments/brqj4g/please_tweak_the_way_the_number_of_stars_on

このように, 星の数はプラス評価の割合とは大きくかけ離れている. 憶測であるが, ダウンロード数または評価者数が影響しているのではないかと考えている. そう考えた根拠を追加で提示する.

数ヶ月前の時点では, Historical Name Expansion の評価は, 29人中全員がプラス評価だった, だが星は今と同じ4つだった.
DL数の多いmodの多くが星5になっている. MB2の仕様とmodというプログラムの宿命のため, それらはバグも多く, 私の最高評価である95%*2のプラス評価をはるかに上回る評価になるとは考えにくい.

この画像は以前投稿したものと同じである. https://x.com/SarmaticusJ/status/1740772011394347248

Steamストアでも, 「おすすめ」「おすすめしません」のレビュー割合に応じて「非常に好評」「好評」といった表示がなされる. プラス評価が40-70%くらいの場合に「賛否両論」となり, その下が「不評」となり, 上が「やや好評」表記であるから, だいたい半々の評価に分かれる点を基準にした対称的なレーティングと言える. 少なくとも, 90%以上がプラス評価でも星3になることはなさそうだ. 実際には, ストアの表記もまた, レビューでの評価の割合とレビューの合計件数の2軸で評価しているのではないかという指摘がある (https://www.reddit.com/r/Steam/comments/ivz45n/what_does_the_steam_ratings_like_very_negative_or/). しかしながら, その推測ルールに基づいていたとしても, レビュー件数が影響するのは500件未満までで, 大きな影響を受けるタイトルは限られているのではないか.

他の意見の調査

日本語で検索してもワークショップのレーティングについて言及しているものが見つからなかったが, 英語では結構見つかる.

ワークショップの評価ルールに関する憶測

Workshop Rating System Unfair? :: Steam Community

このスレッドでも, 私と同じようなそこまでDL数や評価数の多くないmod作成者たちが, レーティングが不当に低いと不満を述べている. その中で, 評価数が少ないうちはマイナス評価が過剰に計算されるシステムになっている, という興味深い仮説が述べられている.

友人を使ってプラス評価を水増しする, いわば「サクラレビュー」を防ぐために以下のようなルールがある
評価数20未満なら, レートなし
評価数100未満なら, 全員プラス評価でもない限り星5にならない, 1人でもいれば星3以下になる
評価数500以上なら, 8割以上がプラス評価していれば星5になる

という仮説である. 細かい条件は異なるだろうが, 確かに私の観察した範囲でもほぼ矛盾しない. 評価数またはDL数が少ないmodは, マイナス評価が異常に重視され, めったに星4や5にならないと思われる.

私の観察の範囲では, 星1や2はほぼ見たことがない. よって, 私の仮説を追加するなら, 上記より硬直的なルールで決まっているのではないかと思う.

別タイトルのワークショップに関して議論する Reddit のスレッドも見つけた.

https://www.reddit.com/r/spaceengineers/comments/16mkn7v/lets_talk_about_steam_workshop_rating_system/

こちらは, 「評価者が自分の見たくないものを見ないようにするためにマイナス評価を入れているのではないか」という意見が面白かった. そこから, ワークショップのUIを改善して検索能力を上げろとか, いろいろな方向へ議論が広がっていた. MB2のワークショップに関しても, 最近は既存のmodを中国語に変換しただけのmodがかなり多いため, 私も検索の邪魔だと感じることが多い. 現状はワークショップには表示言語でフィルタリングする機能がないので, 逆に非日本語ユーザーが目障りだと思って日本語modにマイナス評価を入れる可能性もありうるだろう.*3

ワークショップの適切なレーティング方法に関する意見

ワークショップの適切なレーティング方法に関して議論しているスレッドもある.

https://www.reddit.com/r/Steam/comments/8iv8ns/93_positive_thats_35/

このスレッドの議論は話が混乱しているように見える. だが, 1つ示唆があるとすれば, このレーティングは「公平さ」以外の観点で設計されているということだろう. スレッド内では Wilson score に言及している人がいる.

Wilsonスコアの応用に関する検討

上記で言及された, Wilsonスコアの応用についてもう少し考えてみる.

統計的な文脈で言うなら, modごとに評価者数 (observations) が異なるため, mod ごとのプラス評価割合を単純に比較するのでは, observations の多さが持つ統計的な「信用の大きさ」を見落としている, ということが言いたいのだろう. ワークショップのレーティングこの問題を解決するWilsonスコアと似た方法であり, 理にかなっているという指摘がなされていた. 例えば5人中4人が評価しているのと, 100人中80人が評価している2つの場合は, どちらも80%が評価しているが, 後者は果たしてそこまで信用できるのか, という問題意識で直感的に説明できる. もう少し統計的かつ形式的な言い方をするなら, 評価者が少ない (あるいは, ユーザーの全員ではない) 場合は, 本来の評価との間に誤差がある, という考えに基づく. (という趣旨の投稿があるが, 後述のように, この方法の説明として正確ではない. そのような「公平性」の保証や, 確率的な不安定さをを軽減する方法ではない.)

Wilsonスコアを使ったレーティングのより詳細な方法の参考資料に, https://www.evanmiller.org/how-not-to-sort-by-average-rating.html というページが挙げられている. このページによれば, Wilson スコア信頼区間の下限をそのままレーティングに使うという. 実際にどれくらい差が出るかを比較する. Wilsonスコアは計算は簡単だという実用上の利点もあるので, 一から実装するのも容易だが, Rにパッケージがあったのでそれを使わせてもらう.

Wilsonスコアは本来は区間推定に使用するものだ. 0-1の割合の信頼区間の計算を行う際に近似計算できるように考案されたものだ. *4 そのため, Wilsonスコア信頼区間の下限は検定の下側の臨界値に対応している. 評価者数とプラス評価数と, Wilson信頼区間の下限値の関係を示したのが図1である. 水準は95%である. さらに, この値を単純に5倍して, 5段階レーティングと同じスケールに変換したのが図2になる. 実線は, そのスコアを取得するのに必要なプラス評価数の下限で, 破線はWilsonスコアを使わずに単純にプラス評価割合を対応させた場合の下限である. Wilson スコアの下限のほうが, 単純に割合を使う場合よりもハードルが高いことがわかる. だが, 大きな違いが生じるのは評価者数が20件未満程度の範囲で, それ以上になるとほぼ, プラス評価割合に平行な直線に見える.

では, 今回報告されたレートはこのWilsonスコアに当てはまっているのか. 散布図にこれらのWilsonスコアに基づくレートのしきい値を重ねてみると図3になった.

図3: (a) 実際に観測されたレートと割合評価によるレート (b) 実際に観測されたレートとWIilsonスコアによるレート

なお, これらのグラフは以下のコードで作成した.

クリックして展開

そもそもレートが不当だと感じた人が報告するものだから, 観察データは偏りがあるものだが, いずれにしても星4を上回る評価率であっても3がついている例がいくつか見られる (自分も100%評価であっても星4だった) このため, Steamワークショップのレーティングは, Wilson スコアの95%信頼区間下限よりも更に, 評価者数の少ない作品に対して厳しいものであるとわかる.

Wilsonスコアの下限の使用の正当化の根拠はなにか

ところで, そもそもこの「Wilsonスコアの信頼区間の下限」という指標は適切なのだろうか. 私には疑問に感じる点がいくつもある. これらの疑問を整理すると, 以下に二分できると考えている.

統計的手法としての正当性: 統計学の原理から, なんらかの良い性質が保証されているという点で正当化できるか, 言い換えるなら,言い換えるなら, 少なくとも形式的に適切な統計推測であるか
レーティング手法としての妥当性: レーティングの方式が目的に則したものであるかどうか, 統計学的に正しくとも, レーティングという目的に則していない場合がありえる

Wilsonスコアが近似計算であり厳密ではないとか, 評価者は無作為抽出ではないので母比率に対する推測になっていないとか, そういう技術的に細かい話を抜きにしても, 信頼区間の下限を統計値とみなすことが統計的にどう正当化されるのかよくわからない. 水準を95%に設定することの正当性はいったん置いておこう. そうであっても, なぜ中央値ではなく下限なのだろうか. 評価者数が少ないうちはその結果に信頼できない, という考えであれば理解できる. だがそうであれば, 評価者が十分に多くなった段階で, レートが実際の評価割合にほぼ一致するような方法が望ましいのではないだろうか. 常に信頼区間の下限を参照するのであれば, たとえ全てのユーザーが評価を行ったとしても, レートのしきい値はプラス評価割合と一致しない.*5 更に端的に問題が発生する例を挙げるなら, 評価者数の少ない段階で本来より過小評価されているものは, 一層過小評価されることになる. 結局このやり方は統計学の原理から導かれたのではなく, 評価者の少ないものは信用できないという猜疑心に由来するものではないのか.

それから, Wilsonスコアがサクラレビュー対策になりうるか, という点も疑問がある. Wilsonスコアは独立試行を仮定している. サクラレビューとはユーザーの一部が結託してプラス評価ばかり投票することなので, 独立試行ではない. ある程度の頑健性が見られる可能性は残るが, 理論上サクラレビュー対策が保証されているわけではない.

評価者数の多いものをより重視したいからWilsonスコアを使用する, という意図であれば問題ない. この点では, 単純な割合よりも有効だろう. しかし, これは必ずしも「統計的に」適切な方法であることを意味しない. 評価者数の大小を気にしなくても良い用途であれば, 使わずとも良くなるはずだ. たしかに, 私もサクラレビューには惑わされたくない. 一人しか評価していない星5評価の作品が本当に良いものだと判断してよいかも疑問である. しかし, ゲームタイトルではなく, ほとんどが無料のmodの評価に対して担保したいレートの信用度とは何なのだろうか. 提案した Evan Miller の記述を見ると, 計算が簡単であるのと, 信頼区間の水準を「恣意的に」変更してランキングの調整がしやすい, ということが利点だと考えているように見える.*6 統計的な手法を実用的に変化させて応用するのは構わないが, 統計的に「正しい」*7というお墨付きがあるかのように書くのはやめたほうがよい.

なお, カウントが問題というなら, ベイズ的な定式化も提案されている, しかし, この方式は今回の問題を解決しないためこれ以上言及しない.

次に私が指摘したいのは, 仮にWilsonスコア信頼区間の下限を使うことが統計的に正当化できるものだったとしても, ワークショップのレーティングはこういった古典的な統計的推測の目的とは異なるということである.*8 既に言及したように, 他にも想定している条件と異なる点はあるが, 最も大きな違いは, 古典的な推測は一度限りで意思決定を行う*9が, ワークショップでは表示されるレートに応じて, 利用者からさらなるフィードバックが発生する, ということだろう. 例えば, 上記のような統計的仮説検定に基づいた議論は気にせず, 単純にプラス評価割合をそのまま表示しておく. すると, 過大評価されている作品は人目につきやすくなるが, 実際に遊んだ人がつまらないと感じたらマイナス評価が増え, 順当な評価に収束する, というシナリオもありえる. 厳密に収束するのか, 収束した評価は適切か, というさらなる議論は必要になるだろうが, まだ公開されたばかりで observations が少ない modや, 今回のように想定利用者が大きく限定されている作品に不利(?)に働くことはなくなる. あるいは, modの評価をするという用途であれば, 「評価者の少ない場合の確率的な誤差」よりも気にする問題があるだろう. 他のレーティング基準を採用することも十分に意味がある. 直近で評価が増えているとか, 古い評価より新しい評価を重視するとか, いろいろな観点で傾斜配点することが考えられる. ワークショップではmodの公開日や利用者数でソートできるため, ユーザーエクスペリエンスの観点からは, それ以外の基準のレートを用意するとよいだろう.

実際のワークショップのレーティングはどうなっているのか

ここで, もう一度実際のレーティングについて考えてみる. 既に示したように. レートはWilsonスコア信頼区間の下限で決まっているわけではなさそうだ. おそらく, Wilson スコアよりさらにその場しのぎの方法が適用されているのではないかと思う. 既にわかっているように, 実際のレーティングは Wilsonスコアよりさらにハードルが高い. 加えて, 私の観察の範囲では, 星1や2になっているものがほとんど見られない. また, Wilsonスコア信頼区間下限によるレーティングは, 評価者が少ない場合により効果があるはずだが, ワークショップでは評価者が少ない間はレーティングが公開されない. このように, Wilsonスコアとは異なる特徴が多く見られるため, 上記の別の仮説のような, もっと硬直したな条件分岐で決めているのではないかと予想する. また, ワークショップの評価レートは, Amazonのレートのように小数表示はされていない. 内部では小数で計算して, 表示する際に整数に丸めているのかもしれないが, レートに差がつきにくいし, いわゆる四捨五入バイアスという別の問題も発生する. よって, ワークショップの実際のレーティングが, サンプルサイズの少ない際の誤差対策として統計的に良い方法である可能性も低い.

結論

Steamワークショップの評価レートについて, 具体的な計算方法は公開されていないが, 評価者の割合と大きくかけ離れているという証拠がいくつも見つかった. ワークショップの評価レートが, 評価者の割合とほぼ連動しているストアと同様だと考えると, 直感的でなく, かなり大きな誤解を生むことだろう. 次に, 現在のレーティング方法は, 評価者の少ないmodの評価より, 評価者の多いmodの評価をより信頼し, 前者の評価を低くするという考え方と矛盾していないこと, なおかつこの考えはある程度支持されていることもわかった.

次に, 私の主張は, こういった問題に対処するとされている Wilsonスコア信頼区間の下限を使った方法は, (1) 統計的に正当化されていない, (2) 仮に正当化できたとしても, レーティングの目的に応じて適した方法は異なる可能性がある, というものである. 利用者の好みと運営者の思惑はそれぞれ異なるから, どのような指標を最適化したレーティングを選ぶべきかは一意に決まらない.

さらに, SteamワークショップでWilsonスコアのようなものが使われているという可能性に対しても, 観察されたデータからは, その仮説に反するレーティングの傾向が見つかり, そしてこのレーティングの傾向から, レーティングが何らかの良い性質を持っているかどうかは判断できなかった.

observations を考慮されると逆に不公平になるという問題は, 日本語ユーザーなど限られた人しか使わないことが確実なmodだけの話なので, 今後も取りざたされることは少ないだろう. Steamワークショップで言語フィルタがないことや, ストアでの日本語(外国語)ローカライゼーション審査が長らくザルである*10ことを見ても, ローカライゼーション全般について問題が改善される望みは薄いと思う.

自分語り

5段階評価のレーティング一般について, 私は以前から疑問に思っている. ユーザーが5段階評価できる場合は, 評価軸も採点方式も異なるためだ「5点満点の減点方式」にする人, 「3点を基準に加点する人」など, 人によって点数の付け方が違うだろうし, さらには見る側にもそれぞれの信念があるだろうから, 単一の5段階レーティングというのはあまり良いやり方ではないと思っている. しかしだからといって, 補助的な指標を3つも4つも用意するのも本末転倒だろう. 1-5の範囲の数字だけで総合評価するというのは, 含意するところはさておき, 一瞬で理解できるという大きな利点がある. 時間のあるときに考えてみたいが, たぶんずっと後のことになるだろう.

*1:なお, Steamワークショップの不具合により, ここでダウンロードした日本語修正modは正常に動作しないため, Nexus でダウンロードすることをおすすめする. 残念ながらこの不具合が修正させる望みは薄い.

*2:既に書いたように, 厳密には, 私の過去最高評価は100%である. この時点でかなり怪しい.

*3:前述の中国語modに対して, 著作権を無視しているといった明らかな問題のあるものを除き, 私はマイナス評価を入れたことはない. マイナス評価を入れても表示順には大きな変化はないと考えている.

*4:サンプルサイズが非常に大きい場合は正確な計算が難しくなるため, このような近似計算が用いられる.

*5:この問題は, この手法がそもそも評価割合の一致推定にすらなっていないことと, 無限母集団と有限母集団の違いを考慮していないために起こるのだろう

*6:元記事には, 下限を推定値であるかのように扱う方法が統計的にどう正当化されるかの説明はない. 2つの論文を引用しているが, それらにはWilsonスコア信頼区間の導入と信頼区間としての性質のみを述べている.

*7:「主語が大きい」という形容を時々見かける. それに対して, こういいう言い方は「述語が大きい」とでも言うのべきか.

*8:Wilsonスコア信頼区間下限で置き換える方法をコメントのレーティングに採用した, という古い記事は見つかった. https://web.archive.org/web/20110415020820/http://about.digg.com/blog/algorithm-experiments-better-comments#algo

*9:適応実験計画とか逐次検定といったアイディアもそれなりに古くからある

*10:Area 4643が日本語審査で弾かれたり, 逆に機械翻訳の出力を一切確認せずに使用しているとしか思えない誤訳まみれのテキストや, 大半が英語のままのものが審査を通っているという実績がある.

ill-identified diary

所属組織の見解などとは一切関係なく小難しい話しかしません