第2回「データ解析のための統計モデリング入門」読書会で発表しました


第2回「データ解析のための統計モデリング入門」読書会にて本編の発表を行いましたので資料と補足。

補足

徒然なるままに。

ポアソン分布でモデリングする具体例は,発表時に質問されて回答したサッカーのゴール数や交通事故の回数などがあります。回答しなかった例では塩基配列中の変異数,洪水が起きる回数,中途採用の応募数,メールの受信数と色々考えられます。実際にうまく当てはまるかどうかは,やってみないとわかりません。

ある確率で何か事象が繰り返し起こる際に,ある事象の発生が次の事象発生に影響を及ぼさないようなケースはポアソン分布が向いています[A]。メールの受信数の例でいえば,あるメールを受信したことが,他のメールの受信に影響を及ぼさないということです[B]。本書の種子数の例では, 1 つの種子を生産したことが,その植物にとって次の種子を生産するか否かを決定する要因にならないということを暗に仮定していると考えるといった感覚になると思います。

ポアソン分布と同じ非負整数をカバーする分布に負の二項分布があります。ポアソン分布でモデリングすべきか,それとも負の二項分布でモデリングすべきかは,解析者の分布への思い,数値的な当てはまりの良さなどを勘案して選択すれば良いでしょう。分布への思いというのは,この分布がこういう性質だからきっとこの分布を使えば事象が説明できるだろうという主観のことです。当てはまりの良さは,ポアソン分布において平均と分散が一致するとか,モデルの結果が実際に得られたデータをよく説明するとかそういったことです。

主観と当てはまりの良さがマッチすると非常に快感をおぼえますが,真の世界とモデルが一致したというわけではなく,そのモデルと分布への思いによって世界をうまく説明できるということにすぎません。しかし一方で,モデルという単純な,しかも自分の主観が入った説明しやすい形式に落とし込むことで,話を単純化できて,なおかつ事象をうまく説明できるということの恩恵はすばらしいものです。

モデリングはうまくいくときもうまくいかないときも当然あるわけですが,思考停止してある特定のモデルで止まるよりは,いろいろと試行錯誤を重ねてより良いものを目指したほうが,最終的には得るものが大きいでしょう。もちろんコストはそれなりにかかるわけですから,どこにゴールを置くかは,その場その場で決定していただけたらと思います。

脚注

  1. 指数分布とポアソン分布の関係を考えるとわかりやすいかもしれません。 []
  2. もちろんメールのやり取りを考えればそう単純でないことは想像できます。しかし最初からあれこれ複雑な事情を考えるのは難しいので,まずは単純なモデルを作成し,徐々に他の要因を足していくということをすれば良いでしょう。 []