選択に迷ってしまうのは何故か?

投稿者: | 2017年6月23日

 

概要

問題設定

考える問題は“記事:どっちのクジの方がいいの?”と同一ですが、 利便性のために、ここで再度整理しておきます。

次の二つのクジを考えます。

クジ1: 確率 \(p\)\(a_1\) の報酬を得て、 \(1-p\)\(b_1\) の報酬を得る

クジ2: 確率 \(q\)\(a_2\) の報酬を得て、 \(1-q\)\(b_2\) の報酬を得る

ここで、\(a_1,a_2,b_1,b_2\) は既知ですが、\(p,q\) は不明とします。

クジ1、クジ2を一回ずつ引いていき、その結果を見て、どちらのクジの方が期待値が高いかを推定したいのですが、 何回くらいクジを引けば、正しいクジを選べるようになるでしょうか。

推定に基づくクジの選択確率

○確率と期待値の推定値(再掲)

\(i\) 回目に引いたクジ1、クジ2の結果をそれぞれ \(X_i, Y_i\) で表すことにすると(当たった時に 1, それ以外は 0)、 \(n\) 回のクジの結果から求めた確率の推定値 \(\bar{p}_n, \bar{q}_n\) はそれぞれ、 \[
\bar{p}_n = \frac{1}{n} \sum_i X_i \\
\bar{q}_n = \frac{1}{n} \sum_i Y_i \tag{1} \label{est_p}
\]
となります。

また、これらの推定値を用いて、クジ1、クジ2の期待値 \(\bar{u}_n, \bar{v}_n\)\[
\bar{u}_n = a_1\bar{p}_n + b_1(1-\bar{p}_n) \\
\bar{v}_n = a_2\bar{q}_n + b_2(1-\bar{q}_n) \tag{2}\label{est_r}
\]
となります。 そして、この期待値が高いクジの方をお得なクジとして選択することになります。

○クジを選択する条件

どちらのクジを選ぶのかは \(\bar{u}_n, \bar{v}_n\) のどちらが大きいかで決まります。 そこで、それらの差を取ってみましょう。

\[
\begin{align}
\bar{u}_n – \bar{v}_n &= (a_1 – b_1) \bar{p}_n + b_1 – (a_2-b_2) \bar{q}_n – b_2 \\
&= \frac{1}{n}\sum_i (c_1 X_i – c_2 Y_i) + b \tag{3}\label{diff_r}
\end{align}
\]
ただし、 \[
c_1 = a_1 – b_1 \\
c_2 = a_2 – b_2 \\
b = b_1 – b_2
\]
と置いています。 この差が正の時にクジ1を選択し、負の時にクジ2を選択するので、 差が分かれば良いということになります。

ここで重要なのは、確率的な性質は\(\sum_i (c_1 X_i – c_2 Y_i)\) にのみ現れているということです。 各 \(i\) 回目の試行では、クジ1,2 の当たりはずれの組み合わせにより、\(c_1X_i-c_2Y_i\) は4つの値(\(c_1,c_2,0,c_1-c_2\))のどれかを取り、 その総和によって判断が決定されます。

○静止を含むランダムウォークへの帰着(出来る場合)

もし、クジ1、クジ2も当たりと外れの報酬の差が等しい、つまり、\(c_1 = c_2 = c\) であれば、 \[
\begin{align}
\sum_i (c_1 X_i – c_2 Y_i) &= c \sum_i (X_i – Y_i) \\
&= c \sum_i Z_i
\end{align}
\]
であり、ここで、\(Z_i = X_i-Y_i\) で、 \[
Z_i = \begin{cases}
1 & {\rm with\ \ } p’=p(1-q) \\
-1 & {\rm with\ \ } q’ = q(1-p) \\
0 & {\rm with\ \ } 1-p’-q’
\end{cases}
\]
です。 \(Z_i\)\(1,0,-1\) のいずれかの値を取る確率変数なので、\(\sum_i Z_i\) は静止を含んだランダムウォークとなります。

このランダムウォークが \(n\) 回進んだ時の位置を \(S_n = \sum_i Z_i\) とおくと、 \[
\bar{u}_n – \bar{v}_n = \frac{c}{n}S_n+b
\]
となります。

従って、クジ1を選択する条件 \(\bar{u}_n – \bar{v}_n \ge 0\)\[
S_n \ge -\frac{b}{c}n \tag{4} \label{rw_choice}
\]
と表せます。 ただし、当たりの方がはずれより報酬が多い \(c > 0\) を仮定しています。 逆の場合は不等号の向きが反対になるので注意が必要です。

\(\eqref{rw_choice}\) は、クジ1を選択する確率が、静止を含むランダムウォークで位置が \(-\frac{b}{c}n\) よりも右側(正の側)にいる確率と同じであることを意味しています。 このように、「クジ1、クジ2で当たりと外れの報酬の差が等しい」場合には、 クジを選択する確率は静止を含むランダムォークであるラインを越えている確率として計算することができます。

クジ1 を選択する確率の計算(当たりと外れの差が等しい場合)

静止を含むランダムウォークが \(n\) 回目に位置 \(x\) にいる確率 \(P(S_n = x)\) は、“記事:立ち止まるランダムウォーク” で求めることができるので、 それを使えば、\(P \left(S_n \ge -\frac{b}{c}n \right)\) を次のように計算できます。 \[
P \left( S_n \ge -\frac{b}{c}n \right) = \sum_{x\ge \lceil -\frac{b}{c}n \rceil} P(S_n = x) \tag{5} \label{choice_p}
\]
ここで、\(\lceil x \rceil\) は天井関数で、\(x\) 以上の最小の整数を表します。

グラフ

○計算式の妥当性

まずは、式\(\eqref{choice_p}\) が正しいことを確かめるために、シミュレーションを行った場合と比べてみます。

ここでは、クジ 1 は 30% で 10100 円が当たり、外れた場合は 100 円、 クジ 2 は 10% で10200 円が当たり、ハズレた場合は 200 円だけもらえるものとします。

シミュレーションでは、1000 人の人がそれぞれのクジの結果に沿って確率を推定しながら、 クジを選択します。 そして、何割の人がクジ 1 を選択するのかを調べます。

上のグラフに、\(n\) 回目の試行で、クジ 1 を選択する確率を、シミュレーションと式\(\eqref{choice_p}\) で計算した値のそれぞれで示しています。 赤の線が計算された値で、青の丸がシミュレーションの結果です。 2つはよく一致していることが分かります。

○ギザギザの再現

記事:“どっちのクジの方がいいの?” では、クジ 1 の選択確率が \(n\) の増加に伴ってギザギザに上下する様子が見られました。 この理由を式\(\eqref{choice_p}\) から調べたいのですが、その前に、 式\(\eqref{choice_p}\) は当たりと外れの差が同じという“特殊な状況”だけを表現しているので、 前の記事で見たギザギザがこの“特殊な状況”でも同じように起こるのかを確認しないといけません。

確率と報酬を色々変えてみると、前の記事で見たようなギザギザが、 今の“特殊な状況”でも生じることが確認できました。 その様子が下のグラフになります。

ギザギザが“特殊な状況”でも起こるということは、ギザギザの原因は、 “特殊な状況”のみを考えた式\(\eqref{choice_p}\)の中に組み込まれているということです。 これで安心して犯人探しができそうです。

ギザギザの原因の考察

○ランダムウォークからの視点

さて、以前の記事で、ギザギザの原因は、\(n\) による離散化の影響という風に述べていました。 式\(\eqref{choice_p}\) には、まさにその離散化の影響が \(\lceil -\frac{b}{c} n \rceil\) に現れています。

\(\lceil -\frac{b}{c} n \rceil\) の値は \(n\) の増加につれて下のグラフのように変化します。

グラフに示されているように、\(\lceil -\frac{b}{c} n \rceil\) の値は、\(n\) の値によって連続して変化するのではなく特定の値でジャンプしています。 \(\lceil -\frac{b}{c} n \rceil\) の値が減少すると、ランダムウォークに課せられた条件が広がるので、確率が増加します。 このため、特定の \(n\) 毎にクジ1 の選択確率は不連続に増加します。

一方、\(\lceil -\frac{b}{c} n \rceil\) が一定の値の間は、\(n\) の増加に伴って、ランダムウォークが動き得る幅が広がるので、確率は減少します。 例えば、下のグラフは \(n\) が 11~17 に変わった時のランダムウォークの位置の分布と、\(\lceil -\frac{b}{c} n \rceil\) を示しています。

縦の破線が \(\lceil -\frac{b}{c} n \rceil\) で、\(n\) が 11~17 の間は一定となっています。 \(n\) が増加するについれて分布が横に広がり、破線を左側にはみ出る確率が増えています。 同時に、破線の右側にある確率は減少しており、これは、クジ1 を引く確率が減少していることを意味します。

まとめると、ギザギザの原因は

  • \(\lceil -\frac{b}{c} n \rceil\) の値が不連続に左側にスライドすることで、確率が増加する
  • 位置の分布が連続的に広がることで確率が減少する

の2つであることが分かります。

○クジの視点

ランダムウォーク上で見るとギザギザの原因はきれいに整理できました。 ただ、元のクジ引きの話の中で直感的に理解できないかという疑問が湧きます。

この疑問に答えるには、ランダムウォークとクジ選択がどのように対応しているかを整理すれば良さそうです。

まず、ランダムウォークの位置 \(S_n\) は、クジ1 がクジ2 に比べて何回多く当たりが出たかの回数を表しています。 基本的には、当たりの回数が多い方のクジを選ぶのですが、当たった時の報酬が違うので、何回多く当たりが出ればクジ1 を選ぶべきなのかを決める基準を報酬の大きさに応じて決めなければいけません。 この基準が \(\lceil -\frac{b}{c} n \rceil\) です。

では基準となる \(\lceil -\frac{b}{c} n \rceil\) はどのような意味なのでしょうか。 \(b\)\(b_1 – b_2\) ですが、\(b_1, b_2\) は当たっても外れても最低限得られる報酬で、\(c=a_1-b_1=a_2-b_2\) は当たった時にのみ追加で得られる報酬と考えられます。 \(n\) 回の試行を1 セットで考えると、1 回でも当たりの出る回数が違えば \(c\) だけ追加の報酬を得ます。 また、クジ 2 を選んでいれば、当たる当たらないに関わらず得られる報酬が\(n\)回の試行で \(-nb\) の分だけ、クジ1 よりも得します。 基準値は \(c\)\(-nb\) の比になっており、1回の当たりと \(n\) 回トータルでの最低限の報酬を比べていることが分かります。

直感的にも、クジ1 の方が、クジ2 に比べて、 \(n\) 回中1回当たりが多かったとしても、追加で得られる報酬は \(c\) なので、 もしこれが、クジ2 を選んで最低限 \(-nb\) の報酬を得る方が得であれば、クジ2 を選ぶでしょう。 基準値 \(\lceil -\frac{b}{c} n \rceil\) は、クジ1 の当たりが何回多く出れば、最低限の報酬差 \(-nb\) の元が取れるかを表しています。

\(n\) が増えるに従って、最低限の報酬差以上の報酬を与えてくれる当たりの回数の差は増えます。 ただし、回数は離散的な値なので、不連続に変化します。 これが基準値 \(\lceil -\frac{b}{c} n \rceil\) の不連続なスライドに対応しています。 そして、試行回数 \(n\) を増やすにつれて、当たりの出る回数の差も大きくなっていきます。 これが、ランダムウォークの分布が広がることに対応します。

従って、クジの当たりやすさ \((p,q)\) を反映した当たりの数の差はランダムウォークに沿って連続的に変化し、 報酬 \((a_1,a_2,b_1,b_2)\) を反映した得すると言える当たりの回数が不連続に変化した結果、 選択傾向がギザギザに変化しているということになります。


関数定義

今回用いている関数の一部は、

記事:“どっちのクジの方がいいの?”

記事:”立ち止まるランダムウォーク”

のものを用いています。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です