アイマス統計

THE IDOLM@STERを対象とした統計を行い,情報を発信しております。

シンデレラガール総選挙をアイドルの人気を示す指標にする方法を考える~Part 1~

アイマスを愛するプロデューサーの皆様および統計沼に沈まれている皆様。

紅木弘です。

 

 

シンデレラガール総選挙 & ボイスアイドルオーディション開催!

2020/4/17から第9回シンデレラガール総選挙が始まりました。

今回の総選挙はボイスアイドルオーディションとの合同開催であることや中間発表がないこと。
また,投票券を課金により入手できる,いわゆる「課金票」が前回と比べ大幅に増えるなど,ここ最近の総選挙とは勝手が異なるものとなりそうです。

前回前々回の記事でも少しお話ししましたが,

今回の総選挙は順位の予想が大変難しくなりました。

一方で,今回の総選挙の結果が過去の総選挙の結果とどのように異なるのか。あるいは同じような傾向を示すのか。
個人的に大変興味深いです。

ルールやマナーを守って,楽しい総選挙にしましょう!

 

総選挙で平均をそのまま使えない(使いたくない)理由

さて,本題に移ります。
当ブログではシンデレラガール総選挙に関するあれこれを統計的アプローチを用いて考察しており,

この結果,たくさんの方々からご意見・ご質問を受ける機会が増えました。
(とてもうれしいことです。ありがとうございます)

その中で,
ランキング外の順位を一律に31位や51位にしているにも関わらず,平均値や中央値を取っていることに違和感がある。
というご意見をいただきました。

 

ごもっともだと思います。
私自身,この問題には頭を抱えております。

 

一応ご説明させていただきますと,
シンデレラガール総選挙の結果は50位(第1回のみ30位)までしか公開されていないため,圏外である51位(31位)以降の順位については(運営様でない限り)データを取ることができません。
すなわち,ランキング外のアイドルに順位をつけることは(少なくとも私は)不可能なのです。

 

この問題に対して,私だけでなく多く(?)の統計P様方は様々な対策を講じております。

 

例えば,私のように圏外を全て51位(31位)とする方法。
おそらく,これがもっとも一般的な手法だと思います。
この方法に対する問題は言うまでもなく,順位のあいまいさを持つことです。

 また,今まで一度も圏外になったことのないアイドル28人のみに対してのみ平均順位などを取るという手法も考えられます。
この方法であれば,数値のあいまいさはなくなりますが,150人以上のアイドルに対しては順位を取ることができません。
とくに,歴代シンデレラガールである十時愛梨塩見周子安部菜々本田未央といった,直感的に人気があると考えられるアイドルまでも除外されることも問題でしょう。

 全く異なるアプローチとして,TwitterのTLを集計・分析し,担当P数や圏外順位を推定するという試みもあります。
これは推定される担当P数と推定順位も含めた総選挙順位に相関があることを示すなど,我々が一般に用意できるデータとしてはかなりの信頼度があると考えられます。

しかしながら,この手法はTwitterのTLというバイアスがかかっている膨大なデータを処理しなければならず,データ収集のノウハウが必要である点など,誰もができるものではありません。
また,収集するデータの恣意性を否定することは難しいといった問題もあります。

 

もっと簡易で直感的にわかりやすく,総選挙の順位からアイドルの人気を示す新たな指標をつくれないだろうか。
本記事はそのような内容です。

 

どちらかと言えばイデア出しのような内容であり,正直に言って,まだあまり自分の中で確信を持ってイケると思えるものではありません。

しかしながら,調べた限りまだ公表されていない手法であること。統計に関する自分の勉強になったこと。直感的にそこそこ自分の思った通りの結果になっていることなどから,
今回,記事としてまとめることにしました。
いつにも増して,ご意見ご感想ご質問大歓迎の内容となりますので,どうぞよろしくお願いいたします。

 

提案する新たな指標

まず,新たな指標のアイデアについてご説明いたします。
提案する手法は,
ベイズ統計においてデータがベルヌーイ分布に従うとき,ベータ分布が自然な共役分布になる。
ということを用います。

どういうことか,実例を交えて簡単にご説明いたします。
(といってもがっつり説明するわけではないので,ベイズ統計をちゃんと勉強されたい場合は参考書や他のHPを見てください)

私の担当である高垣楓が総選挙でTop10に入る確率 θ を求めるとしましょう。

高垣楓の総選挙での順位は第1回から順に
11位,3位,7位,3位,2位,1位,8位,11位
なので,直感的には 6/8 = 0.75 より θ = 75% となります。

 

この直感が正しいかどうかをベイズ統計で求めてみます。

 

まず,本問題を高垣楓が総選挙でTop10に入るか入らないかという事象が2種類の試行(ベルヌーイ試行)であるとします。
いわゆる,コインを投げて表か裏かという試行と同じです。

コインであれば投げて表が出る確率と裏が出る確率は(同様に確かならば) 1/2 = 50% ですが,今回で言えば,
高垣楓が総選挙でTop10に入る確率を θ とすると,
高垣楓が総選挙でTop10に入らない確率は 1 - θ となります。

次に,確率の乗法定理より,高垣楓が総選挙でTop10に入る尤度 f

f:id:hiroshiakagi398:20200417224444j:plain

となります。

最後に,事後分布は尤度と事前分布の積に比例するというベイズ統計学の基本的な公式に従うと,8回の総選挙の結果から高垣楓が総選挙でTop10に入る確率(事後確率) π

f:id:hiroshiakagi398:20200417224449j:plain

(kは定数,理由不十分の原則より,事前確率は1)
となります。

これは前述した,ベイズ統計においてデータがベルヌーイ分布に従うとき,ベータ分布が自然な共役分布になる。という関係を示しております。

ベータ分布において,確率密度関数 f(θ)

f:id:hiroshiakagi398:20200417224454j:plainかつ pq自然数のとき

f:id:hiroshiakagi398:20200417224457j:plainであり,最頻値 M

f:id:hiroshiakagi398:20200417224501j:plainであることを用いると,

前述の事後確率 π より p = 7, q = 3 なので,係数 k および最頻値 M は,

f:id:hiroshiakagi398:20200417224504j:plain

f:id:hiroshiakagi398:20200417224508j:plainとなります。

したがって,8回の総選挙の結果から高垣楓が総選挙でTop10に入る確率 π

f:id:hiroshiakagi398:20200417224511j:plain

確率分布を示し,その最大値は 0.75 であることがわかりました。

事後確率が一番大きいことが一番よく起こる(MAP推定)を用いれば,
8回の総選挙の結果から高垣楓が総選挙でTop10に入る確率は 75% であると推定されます。
なお,これは前述した直感的な確率と同じです。

長くなりましたがようは,
データがベルヌーイ分布に従うベイズ統計の結果から,アイドルが上位x位に入る確率を求め,その確率の高い低いからアイドルの人気を示すことはできないか?
というのが私のアイデアです。

 

提案するアイデアを用いた実例

では,実際にこのアイデアが示す結果を見てみましょう。

表1に各アイドルの総選挙平均順位の結果を示します。また,表2に第8回総選挙の結果から各アイドルが総選挙でTop10に入る確率を示します。

f:id:hiroshiakagi398:20200417224514j:plain

表1 総選挙平均順位

 

f:id:hiroshiakagi398:20200417224520j:plain

表2 総選挙でTop10に入る確率

 

同様に,表3はTop15に入る確率を示したグラフであり,表4はTop20に入る確率を示したグラフです。

f:id:hiroshiakagi398:20200417224524j:plain

表3 総選挙でTop15に入る確率
 

f:id:hiroshiakagi398:20200417224528j:plain

表4 総選挙でTop20に入る確率


これらの表より,従来の平均を用いた結果とは異なるソートになることがわかります。

 

平均順位とTop10に入る確率との比較

例として,図1に表1の平均順位と表2のTop10に入る確率との比較を見てみます。

 

f:id:hiroshiakagi398:20200417224537j:plain

図1 総選挙平均順位とTop10に入る確率との比較

 

全体総選挙が初参加かつ3位の夢見りあむはひとまず置いておいて,
総選挙に強いと言われている高垣楓鷺沢文香の順位はそのままに,平均順位ではやや低い順位となっていた北条加蓮本田未央の順位が上がります。

これは,最初期の総選挙において彼女たちが圏外だった経験があり,これが平均順位を下げる原因となっているためです。

同様の理由で順位の落差が大きい一ノ瀬志希の順位が大幅に上がる点も注目ください。

 

一方で,平均順位4位の緒方智絵里の順位がTop10に入る確率で見ると大幅に下がります。

また,神谷奈緒高森藍子城ヶ崎美嘉は表2にすら載りません。

これは,彼女たちはこれまでの総選挙に置いてTop10を経験したことが無いためです。

 

では,彼女たちは人気がないのか。
そんな訳はありません!

 

提案するアイデアが平均順位よりも優れている点1

表3や表4のTop15に入る確率,Top20に入る確率を見てみましょう。
とくに表4がわかりやすいですが,

神谷奈緒高森藍子はTop20に入る確率が本田未央と同率で9位。
城ヶ崎美嘉神崎蘭子渋谷凛佐久間まゆと同率で12位となります。
また,緒方智絵里はTop15に入る確率,Top20に入る確率ともに100%です。

すなわち,彼女たちはこれまでの総選挙においてTop10に入ることはないものの,全体の約10%(19位)に入る確率の高いアイドルである。
と見ることができるのです。

これは,平均値では見ることができません。

 

提案するアイデアが平均順位よりも優れている点2

他の例を見てみましょう。

表1の平均順位において,佐城雪美と橘ありすはそれぞれ30.0位と30.1位であり,0.1ポイントしか平均順位に差はありません。

 ところが,表2から表4に橘ありすの姿はない。すなわち,彼女はこれまでの総選挙において20位以内に入った経験がないことを意味します。

一方,佐城雪美は第8回総選挙で5位となり,CVが付いたことは周知の事実でしょうが,その前の第7回総選挙において18位を取っていました。

また,佐城雪美は総選挙圏外の経験が3回ありますが,橘ありすが圏外になったことはありません。

すなわち,平均順位ではほぼ同じような値である佐城雪美と橘ありすですが,その実態は,
総選挙でTop10を1回,Top20を1回経験しているが総選挙圏外も複数回経験している佐城雪美と総選挙でTop20を経験していないが毎回安定して30位前後の順位を取っている橘ありす。
ということです。

このようなことも,提案するアイデアでは数値としてはっきりわかります。

 

提案するアイデアのまとめ

以上をまとめますと,私が今回提案するアイデアは,
平均順位を用いるのではなく,アイドルが上位x位に入る確率から,そのアイドルが総選挙でどのような傾向を持っているかを判断する。
というものです。

今回はTop20までしか示していませんが,これをTop25,Top30としていったり,
あるいは逆に「圏外率」のような指標をつくることにより,
平均順位では見ることのできなかった各アイドルの順位傾向や変動をより詳しく見ることができるのではないかと考えます。

実際にこのアイデアが使い物になるのかどうか。
もっとよい方法があるのではないか。

私も検討しますが,皆様のご意見ご感想ご質問も積極的に伺いたく思います。


それでは,これにて本記事を締めさせていただきます。

統計の力で,アイマスがもっと好きになる。

紅木弘がお送りしました。

 

f:id:hiroshiakagi398:20200417233654j:plain