hirschkalb's blog

"I beseech you, in the bowels of Christ, think it possible that you may be mistaken."

圧倒的乱雑さ

異動についてはネタが尽きないなあ。(正しくは「推測については」、だと思うけど)
hirschkalb.hateblo.jp

いま『Data Science for Business』(Foster Provost, Tom Fawcett著、O'Reilly Copyright 2013 Foster Provost and Tom Fawcett, ISBN978-1-449-36132-7, 邦題『戦略的データサイエンス入門』オライリー・ジャパン、ISBN978-4-87311-685-3)を読んでて*1、よく聞くけどよくわかんないエントロピーのお話が出てきたが、案外すっきり書かれているので復習のために上記の異動の話をネタに確認してみようというものです。

まず、エントロピーとはこういうものらしい。

entropy=-p_{1}\log(p_{1})-p_{2}\log(p_{2})-...

このときの p_{i} は「データセット中に存在するあるインスタンスの特性(目的変数)が i という値である確率(相対的な割合)」なのだそうだが、たぶんこの文章を初見する人は何を言っているのかよくわからないだろうから簡単のため「p_{i} はとりあえず確率らしい」というくらいのことでいいと思う。エントロピーは乱雑さが最小のとき0で、最大のとき1となる。

そんでもってある部署に留まる確率と異動する確率は別の機会に予定していたのでこうなっている;

Pr(here|here)=P_{here, here}=P_{1,1}=0.68

Pr(there|here)=P_{here, there}=P_{1,2}=0.32

これについてエントロピーを出すとこうなる:

entropy=-\left[0.68*\log_{2}(0.68)+0.32*\log_{2}(0.32)\right]\approx-(0.68*-0.56+0.32*-1.64)\approx0.91

わりと乱雑(純粋でない)ということなのか。(参考:エントロピー - Wikipedia

*1:なぜやたらと詳しく出典を示しているのか。それについては本書の「はじめに」のxvページをご参照ください。

広告を非表示にする