数学への挑戦 第二弾〜期待値と分散:数理モデルxプログラミング〜

今回は、期待値に関して学習します。
前回は、確率変数について学習しました。具体的に記載しませんでしたが、確率変数は実現値でもありました。

学習中の本は以下のものです。

サイコロの場合

目の数 1 2 3 4 5 6
確率 1/6 1/6 1/6 1/6 1/6 1/6

1〜6が確率変数で下のように数式で表します。
1(実現値) x 1/6(確率)

そして一般化するとE[X] = xi pi
のように表現できる。

期待値

期待値=<確率変数の実現値> x <実現値の確率>の合計

つまり、サイコロの期待値は・・・

(1 x 1/6) + (2 x 1/6) + (3 x 1/6) + (4 x 1/6) + (5 x 1/6) + (6 x 1/6) = 3.5となる。

傘を持ってくるこないの話では

始めにやった損失も同様に期待値を比較するものになります。

これの場合は下のような表を使いました。

傘を持ってくる 持ってこない
Ⅰ 晴れ(0.4 : -2) Ⅲ 晴れ(0.4 : 0)
Ⅱ 雨(0.6 : -2) Ⅳ 晴れ(0.6 : -10)

なので上のケースに当てはめると
傘を持ってくる場合:(0.4 x -2) + (0.6 x -2) = - 0.2
傘を持ってこない場合:(0.4 x 0) + (0.6 x -10) = - 6

(A) 傘を持ってくるときの「期待値」は -2
(B) 傘を持ってこないときの「期待値」は -6
つまり、(A) > (B)が成り立つので(A)の方が得という判断になる。

計算式

一般化して(変動する値を文字に置き換えて)式を書くと
期待値:E[X] = xi pi
というような形になります。

分散

(実現値 - 期待値)^2(2乗)の平均
この文言では意味がわからないので、サイコロの場合で考えると

目の数 1 2 3 4 5 6
確率 1/6 1/6 1/6 1/6 1/6 1/6

期待値=3.5

(1 x 1/6) + (2 x 1/6) + (3 x 1/6) + (4 x 1/6) + (5 x 1/6) + (6 x 1/6) = 3.5

上の定義に当てはめると ※「^」キャレットは〜乗の意味
(1 - 3.5)^2 + (1 - 3.5)^2 + (2 - 3.5)^2 + (3 - 3.5)^2 + (4 - 3.5)^2 + (5 - 3.5)^2 + (6 - 3.5)^2 = 2.9 ...
なので分散は2.9.119...となる

これを一般化すると下のようになる。期待値は「u」とする
分散値:V[X] = (xi - u)^2 pi

とりあえずはこんなものだというところの理解(思い出したい時にこの記事を見るレベル)で良いようです。(本にそう書いています)

ちなみに、プログラムを書いていないですが、用途が決まらないのでまだコードには落とせませんでした。。。

でわでわ。。。



数理モデル関連ページ

  1. 数学への挑戦 第二弾〜数理モデルxプログラミング〜
  2. 数学への挑戦 第二弾〜実装編:数理モデルxプログラミング〜
  3. 数学への挑戦 第二弾〜集合を使う:数理モデルxプログラミング〜
  4. 数学への挑戦 第二弾〜確率変数:数理モデルxプログラミング〜
  5. 数学への挑戦 第二弾〜期待値と分散:数理モデルxプログラミング〜
  6. 数学への挑戦 第二弾〜卒業までに彼氏ができる確率:数理モデルxプログラミング〜
  7. 数学への挑戦 第二弾〜確率変数の足し算:数理モデルxプログラミング〜
  8. 数学への挑戦 第二弾〜まとめ1:数理モデルxプログラミング〜

数学への挑戦 第二弾〜確率変数:数理モデルxプログラミング〜

前回は、集合を使って数理モデルを作成しました。
目的は「喫煙者のいる割合を求める」と言うところでした。

今回は上で学習したことを数学的な見地で見直します。

学習中の本は以下のものです。

確率変数

前回の話では、コインの表裏を使ったので下のような確率が存在します。

出来事 確率
裏が出る 0 0.5(1/2)
表が出る 1 0.5(1/2)

そして、出来事の集合をΩ={裏, 表}のように表現します。
さらに、(わかりやすいように)コインがちょっと曲がっていて上の確率が変わり下のようになったとします。(仮定)

出来事 確率
裏が出る 0 0.4
表が出る 1 0.6

ここでの「0」「1」が確率変数というものになります。

サイコロの場合

目の数 1 2 3 4 5 6
確率 1/6 1/6 1/6 1/6 1/6 1/6

1〜6が確率変数で下のように数式で表します。
1(実現値) x 1/6(確率)

そして一般化するとE[X] = xi pi
のように表現できる。

ということでした。

でわでわ。。。



数理モデル関連ページ

  1. 数学への挑戦 第二弾〜数理モデルxプログラミング〜
  2. 数学への挑戦 第二弾〜実装編:数理モデルxプログラミング〜
  3. 数学への挑戦 第二弾〜集合を使う:数理モデルxプログラミング〜
  4. 数学への挑戦 第二弾〜確率変数:数理モデルxプログラミング〜
  5. 数学への挑戦 第二弾〜期待値と分散:数理モデルxプログラミング〜
  6. 数学への挑戦 第二弾〜卒業までに彼氏ができる確率:数理モデルxプログラミング〜
  7. 数学への挑戦 第二弾〜確率変数の足し算:数理モデルxプログラミング〜
  8. 数学への挑戦 第二弾〜まとめ1:数理モデルxプログラミング〜

数学への挑戦 第二弾〜集合を使う:数理モデルxプログラミング〜

前回は「傘を持って行くか行かないか?」をテーマに数理モデルを考えました。

今回は、数理モデルでの喫煙率を求める方法を考えます。
参考にする本は下のものです。

前提

この本に登場する「青葉」が担当することになった大学内の喫煙率調査を行う場合の内容で考えていきます。前提としては

  1. 大学内は禁煙
  2. 生徒数は1000人
  3. 下のような質問(アンケート)をしても適切な答えは返ってこない
    あなたは学内でタバコを吸ったことがありますか?
    <はい> <いいえ>
    どちらかに丸をつけてください

このアンケートを見てもう一人の登場人物「花京院」がダメ出しをして以下のような手順で「喫煙率」を求めようと言うことになった。
こんな内容で書かれていました。

行ったことの一覧

  1. 回答のランダム化
  2. 集合で考える
  3. 期待値と分散
  4. 結論を見る

数理モデルを作る

1.回答のランダム化

学内で「違反行為」に当たる喫煙を行なったのか?と言う質問に対して全員が正直に「YES」と答えるとは考えにくいので「回答のランダム化」を行います。
早い話が、「大数の弱法則」を使用して「確率によってバラツキの出る値を0に近づける」=「確率(パーセンテージを含む)を無視できるレベルまで下げる」と言うことを行いアンケートの結果をまとめると言うことです。

具体的に①

コインを投げてもらい、裏が出たら必ず<はい>を選択してもらう

この方法で、正直に答える人とそうでない人の割合(確率)を求めることで「正直に答えない人=喫煙者」の割合を求めると言うことです。

2.集合で考える

まずはグループわけを行います。下のように分けます。

  1. Aグループ = コインで表が出た人
  2. Bグループ = コインで裏が出た人
  3. Cグループ = Aの中でタバコを吸った人
  4. Dグループ = Bグループでタバコを吸った人

<図1>

喫煙率の推定

アンケートの結果で<はい>と答えた人が600人いたと仮定すると下のようになる。

Cグループ = コインの表が出て、正直に<はい>と回答
Bグループ = コインの裏が出て<はい>と回答

<はい>と回答した人の中には上のような人が含まれますので|B U C| = 600と表現できます。
BまたはCの要素数 = 600と言う意味です。

そして「生徒数=1000」でコインの裏が出る確率は「1/2」なので|A|=500, |B|=500と推測することができる。確定ではないので注意です。

上記の情報をまとめると以下のようになる。
|B U C|=600, |A|=500, |B|=500
そして、コインの表裏はランダムに決まるので「確率的に」以下のようになる
|C|/|A| = |D|/|B|
これは「AグループとBグループに喫煙者がX人ずついるであろう」と言う考えを基にしている

具体的に②

実際に行ってはいないけれど「仮に」喫煙者が400人いたとするのであれば、喫煙率は「400 / 1000 = 40%」になるので「コイントスでA, Bグループ(500人ずつ)にいる喫煙者社の割合(確率)も40%で200人ずついることになる。

求めるべき値の喫煙者数=400は下のようにして求めることができる。

|B U C| = |B| + |C|
|B U C| - |B|=  |C| 両辺から|B|を引く

下の値を使用して計算すると。。。
|B U C|=600, |A|=500, |B|=500
次のような計算式で求めることができる
|B U C| - |B| = |C| = 100
|C| / |A| = 100 / 500 = 0.2 = 40%
となる。。。つまり喫煙者の割合は「40%」になり「仮定」で示した「400」と言う数値も正しいものであると言える。

この結果は、喫煙率でなくても良い。

と言うことらしいです。

ここまでをプログラムに落とすなら。。。

Javaで上のものを表現する

まずは、主要な変数を明確にします。

  1. A〜Dまでのグループの人数
  2. ここで求めたい数値(喫煙率)

「上の数式そのまんま?」と思うかもしれませんが、その通りになります。
プログラムに落とし込むときに重要なのは、各パラメータの意味が重要になります。

早い話が

「数理モデルのインプットとアウトプットがなんなのか?」がわかれば良いと言うことです。
実装するメソッドも下のようになります。

/** 
 * 恋んトスによるランダム化の、割合を求める、数理モデル
 * 目的は引数に依存する
 * @param all 対象になる(分母の)数
 * @param resultValue アンケートの結果<はい>の数
 */
public double daisunoHosoku(int all, int resultValue) {
   // |B U C| 上のケースでは600だった
   double BorC = resultValue;
   // |A|
   double A = all / 2;
   // |B|
   double B = all / 2;
   // |C| / |A| = |D| / |B|で求めるのは|C|
   double C = BorC - B;
   // 割合(確率)を返却する
   return C / A;
}

と上のようになります。
ちなみに、今後このコードをカスタムしていきます。
でわでわ。。。

<!— BODY広告-->



数理モデル関連ページ

  1. 数学への挑戦 第二弾〜数理モデルxプログラミング〜
  2. 数学への挑戦 第二弾〜実装編:数理モデルxプログラミング〜
  3. 数学への挑戦 第二弾〜集合を使う:数理モデルxプログラミング〜
  4. 数学への挑戦 第二弾〜確率変数:数理モデルxプログラミング〜
  5. 数学への挑戦 第二弾〜期待値と分散:数理モデルxプログラミング〜
  6. 数学への挑戦 第二弾〜卒業までに彼氏ができる確率:数理モデルxプログラミング〜
  7. 数学への挑戦 第二弾〜確率変数の足し算:数理モデルxプログラミング〜
  8. 数学への挑戦 第二弾〜まとめ1:数理モデルxプログラミング〜

数学への挑戦 第二弾〜実装編:数理モデルxプログラミング〜

今回は「傘を持っていくか?いかないか?」の選択を行う時の損失(気持ちを基準に)をみてどうするべきか?の判定を下す処理を実装してみようと思います。
元元の話はこちらです。

傘を持ってくか?の数理モデル

以下のような条件がありますので注意です。

<前提>
行動の選択肢は「傘を持ってくる」 or 「持ってこない」の2つ
<嫌度>
雨に濡れることの嫌度 = -10(濡れないとき = 0)
傘を持ってくることの嫌度 = -2
<確率>
雨の確率: 60% = 0.6
晴れの確率: 40% = 0.4

数理モデルの作成をするのには以下のような手順がありました。

  1. 前提になる条件を整理する(書き出す)
  2. 判定する基準を作る(今回の場合は「嫌度」です)
  3. 全部のパターンから平均の損失を求める
  4. 求めた結果、変数(確率変数)になる部分を一般化(文字に置き換える)してやる
  5. 上記の結果、不等式(-ac > -pc)ができるのでそれが数理モデルになる。

数理モデルを作る

プログラムでも、数学でもこの部分は同じようで、まずは頭の中でロジックを作成します。→「理論的に、こーなる!」を作成する

「傘を持ってくるか?」の話では、上の条件より上の条件より以下のような式になります。

<実際の値を計算する>
この記事の「2.平均的な損失を求める」より

「確率」と「その確率で実現する値」の積の合計を平均的な損失と定義する

このような記述がこの本にはありました。

そして、上の部分がわかりづらいので「早い話が。。。」の形にすると下のようになります。

雨が降ったが傘を持っているときは「確率」x「嫌度」=-0.8 ...になる

というわけで式にすると。。。傘を持ってきた場合は
(0.4 x -2) + (0.6 x -2) = -2
となるので「傘を持ってきた時の平均的な損失は−2」

対して、傘を持ってこなかった場合は。。。
(0.4 x 0) + (0.6 x -10) = -6
となるので「傘を持ってこなかった時の平均的な損失は-10」となる。。。

なるほど、しかし上の式で平均になるのか?
平均は「全部の値を大してその個数でわる」ものなので。。。

傘を持ってくる 持ってこない
Ⅰ 晴れ(0.4 : -2) Ⅲ 晴れ(0.4 : 0)
Ⅱ 雨(0.6 : -2) Ⅳ 晴れ(0.6 : -10)

上の表からして、上の全パターンを計算してその合計を出してそのパターン数(4)で割ってやれば良いことになる。。。がしかし、上の記述ではそんなことをしていないのがきになる。。。が比較するから割らなくても問題ないのか?

そんなわけで、次のステップ

変数になるものを指定する

上の表からして、変わる値はほぼ全部かな?

  • 「降水確率」は日によって変わる = p
  • 「嫌度」もその日の気分で変わる = c

これらを変数として「p」「c」とする、そしてこのケースでは必ず「0 < p < 1」(パーセントなので)、「マイナスの値」(嫌度なので)となるから

降水確率60% = 0.6 = p : 晴れの確率40% = 1 - p
雨に濡れる嫌度 = -10 = -c : 傘を持ってくる嫌度 = -c/5

今までのをまとめると。。。

雨の場合
(0.4 x -2) + (0.6 x -2) = -2 => ((1-p) x -2) + (p x -2) = (-2 + 2p) + (-2p) => 平均は「-2」
晴れの場合
(0.4 x 0) + (0.6 x -10) = -6 => ((1-p) x 0) + (p x -10) = 0 + -10p = 平均は「-10p」

ここで「雨に濡れる嫌度が1/5」になっているのでこれも変数化します。変数名は「a」にします、そして割合なので0 < a < 1」になります。まとめると以下のようになります。

雨の確率 = p : 晴れの確率 = 1 - p
雨に濡れる嫌度 = -c : 傘を持ってくる嫌度 = -ac

これを式にすると。。。

傘を持って来た時
((1-p) x -ac) + (p x -ac) = (-ac + pac) + (-pac) = -ac
傘を持ってこなかった時
((1-p) x 0) + (p x -c) = (0 - pc) = -pc

なので傘を持ってくる条件は「-ac < -pc」 => 「a < p」
つまりは、「雨の確率がa(傘を持ってくる嫌度の割合)より大きい時」ということになります。

プログラムにしてみる

つまるところは「数式」の意味がわかっていれば良いので、数理モデル=数式の計算結果を返してやれば良いことになりますので。。。

   /**
     * 傘を持ってくる、持ってこない時の行動を判断する時の数理モデル実装
     * 
     * @param rainy 降水確率
     * @param bring 傘を持ってくる嫌度
     * @return true=傘を持ってくる : false=持ってこない
     */
    public boolean bringKasa(double rainy, double bring) {
        return bring &lt; rainy;
    }

となります。

でわでわ。。。



数理モデル関連ページ

  1. 数学への挑戦 第二弾〜数理モデルxプログラミング〜
  2. 数学への挑戦 第二弾〜実装編:数理モデルxプログラミング〜
  3. 数学への挑戦 第二弾〜集合を使う:数理モデルxプログラミング〜
  4. 数学への挑戦 第二弾〜確率変数:数理モデルxプログラミング〜
  5. 数学への挑戦 第二弾〜期待値と分散:数理モデルxプログラミング〜
  6. 数学への挑戦 第二弾〜卒業までに彼氏ができる確率:数理モデルxプログラミング〜
  7. 数学への挑戦 第二弾〜確率変数の足し算:数理モデルxプログラミング〜
  8. 数学への挑戦 第二弾〜まとめ1:数理モデルxプログラミング〜

数学への挑戦 第二弾〜数理モデルxプログラミング〜

色々とやりかけのままですが、記事を書く時間の都合上、色々と並行して進めて行こうと考えている昨今です。

Javaで数理モデル

以前、数学への挑戦ということで。行列計算(ND4J)に挑戦しました。大まかに使えるようにはなったものの数学的理解が足りないため「どのように使うか?」に対する疑問が解決できない状況でした。

ここで数理モデル

「数学」が出てきたのは「機械学習」を理解するためでした。
しかし、よくわからないで終わっていたものをなんとかできるかもしれないと予感させてくれる本を見つけました。

この本で「イケる」と思いました。なのでこの本の勉強を始めます。

つまるところは、機械学習を実装して自分の目的とする結果を得るにはどの様に考えればよいか?を理解するのに数理モデルを理解すれば良いと思った次第です。

数理モデルとは

色んな事象を数学的に表現したもの。なので機械学習や、ディープラーニングなどの処理を実装する時に使う数式を組み上げる為のものという認識です。

実際は、TensorFlowなどの様にフレームワークを使ってやれば細かいところは理解しなくても良いのですが、入力と出力の理解は必要なのでこの数理モデルを理解すれば、入力と出力の理解につながるだろうと言うところです。

数学への挑戦第3弾:数理モデルを理解する

以下の命題を解決するために数理モデルを使って解決しようと言う試みをまとめました。もちろん上記の書籍にあった内容です。

傘を持って行くか行かないか?

この本の始めに記載されていることをまとめると上のようなことが書いてあります。テーマは「モデルとは何か?」なのですが、この部分はとても知りたいと思っているところでした。

つまり、プログラム(機械学習)で使用する「計算」や「学習モデル」を理解するという目的に対して大きな効果が期待できると思った次第です。

人の行動を数学で説明する

この本に記載しているケースはこの本に登場する人物
青葉(女)と花京院(男)の会話から始まります。二人は大学生で研究室にて話をしているところから始まります。
そしてその「課題」になっているのが「モデルを使って説明する」というところでした。

数値で表現する

話題になっているのは『「青葉」が傘を持ってきた』という行動を数理モデルで説明するというものです。始めに行ったのは。。。

1.雨に濡れることの嫌度を数値で表す

雨が降って、雨に濡れることの「嫌度」を数字で表す。ということを行なっています。本には「雨に濡れることの嫌度=-10」と仮定しています。
そして、「傘を持ってくることの嫌度=-2」と仮定しました。「-2」は感覚で仮定したものです。(雨に濡れる=-10なのでその5分の1)
そして、天気予報を見ると今日の「降水確率が60%=0.6」なので晴れの確率は残りの「40%=0.4」になる。
ここまでをまとめると。。。

<前提>
行動の選択肢は「傘を持ってくる」 or 「持ってこない」の2つ
<嫌度>
雨に濡れることの嫌度 = -10(濡れないとき = 0)
傘を持ってくることの嫌度 = -2
<確率>
雨の確率: 60% = 0.6
晴れの確率: 40% = 0.4

上記のようになります。

2.平均的な損失を求める

上でまとめたものを表にすると下のようになります。
<天気(確率 : 嫌度)>

傘を持ってくる 持ってこない
Ⅰ 晴れ(0.4 : -2) Ⅲ 晴れ(0.4 : 0)
Ⅱ 雨(0.6 : -2) Ⅳ 晴れ(0.6 : -10)

「確率」と「その確率で実現する値」の積の合計を平均的な損失と定義すると。。。
<傘を持ってきた場合の損失>
Ⅰ + Ⅱ + Ⅲ + Ⅳ = (0.4 - 2) + (0.6 - 2) = -0.8 - 1.2 = -2のようになります。
<傘を持ってこない場合>
Ⅰ + Ⅱ + Ⅲ + Ⅳ = (0.4 0) + (0.6 -10) = 0 - 6 = -6のようになります。

A.傘を持ってくるときの平均損失 = -2
B.傘を持ってこないときの平均損失 = -6

「A > B」が成立するので傘を持ってきた

というのがこの本の出だしに記載されていました。
ここから「青葉」の納得がいかない部分を「花京院」が説明していきます。

Javaで表現するとどうなるか?

以前作成した、コンソールプリがあるのでそれをカスタムし、今回の話をプログラム的に表現します。
仕様としては以下のようになります。
<入力値>

  1. 雨に濡れることの嫌度
  2. 傘を持ってくる事の嫌度
  3. 今日の降水確率
    <出力値>
  4. 傘を持ってきたときの損失
  5. 傘を持ってこないときの損失

こんな感じになります。

続きは次回。。。
でわでわ。。。



数理モデル関連ページ

  1. 数学への挑戦 第二弾〜数理モデルxプログラミング〜
  2. 数学への挑戦 第二弾〜実装編:数理モデルxプログラミング〜
  3. 数学への挑戦 第二弾〜集合を使う:数理モデルxプログラミング〜
  4. 数学への挑戦 第二弾〜確率変数:数理モデルxプログラミング〜
  5. 数学への挑戦 第二弾〜期待値と分散:数理モデルxプログラミング〜
  6. 数学への挑戦 第二弾〜卒業までに彼氏ができる確率:数理モデルxプログラミング〜
  7. 数学への挑戦 第二弾〜確率変数の足し算:数理モデルxプログラミング〜
  8. 数学への挑戦 第二弾〜まとめ1:数理モデルxプログラミング〜