サンプリングの不思議

投稿者: | 2017年5月25日

概要

  • 稀な事象の確率を推定する時に、確率を小さく推定する傾向がある。
  • ガチャを例として、簡単なRの数値シミュレーションでその傾向を調べる。

問題設定

1% の確率で当たり、99% の確率で外れるガチャを考えよう。 ただし、ガチャを引く人は確率が分からず、ガチャを引いてみて当たる確率を推定するとする。 ガチャを\(m\)回引いた時、当たった数を\(n\)とすると、ガチャの当たる確率は\(\frac{n}{m}\)と推定するのが自然である。

この確率の推定値は1%を超えることもあれば、逆に下回ることもある。 それでは、このような推定を\(l\)人で並列に行って、\(i\)さんの推定した確率を\(p_i\)とした時、 1%より当たる確率が低いと見積もる人は、\(l\)人のうち何人いるだろうか。 (たまたま多く当たりを引いた人もいれば、全然引かなかった人もいるので、単純に、半々になるだろうか。)

シミュレーション

上のような問題をシミュレーションにより確かめてみる。

まずは、1万人が5個ずつガチャを引いた場合の結果が下になる。

ランダム要素を含むので結果は変わるがおよそ5%くらいの人が当たる確率は1%より大きいと答える。 逆に、95%の大半の人がこのガチャが当たる確率は1%以下と答えることになる。

考察

上の結果から、確率を低く見積もる傾向があることが分かるが、 どうしてこうなったのだろうか。 少し考えると、一人当たりの試行回数\(m\)が小さいことが問題だと分かる。

\(m=5\)のように試行回数が小さいと、大半の人は当たりを引けない。 つまり、推定された確率は0で、確率1%に満たないと大半の人が結論付けることになる。

\(m=100\)のシミュレーション

そこで、\(m\)を増やしてみて、1万人が100回ずつガチャを引くシミュレーションを行ってみる。

結果は、25%くらいの人が確率は1%より大きいと答え、それ以外の人は確率は1%以下と答える。 この1%以下には、1%ちょうども含まれているので、実は分けて考えないとフェアじゃない。

1% 丁度と推定する人の割合

そこで、当たる確率が1%より大きい、1%ちょうど、1%より小さいと推定する人の割合をそれぞれ計算した。

結果は、確率が1%より低いと答える人の割合と確率1%より高いと答える人の割合は最初に比べてかなり近づき、 推定される確率の偏りが改善されていることが分かるものの、それでも確率を小さく推定する傾向は残っていることが分かる。 試行回数\(m\)をさらに大きくするとさらに偏りは改善されていくが、そもそも偏っているものだということに注意することが大事だろう。


 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です