『金鉱を掘り当てる統計学 データマイニング入門』の読書メモ

統計学ってビジネスでどう使われているんだろう、という疑問の解消のために、新書でサクッと読めそうな『金鉱を掘り当てる統計学』という本を手に取りました。

かんたんにメモしていこうと思います。

 

概要

 

何の本か?

・データマイニングに関して、その概念と具体的な手法と活用例が書かれた入門書。

・具体的な手法に関しては、

・ニューラルネット(フィードフォワード型ネットワークモデル)

・決定木(回帰木・分類木)

・自己組織化マップ(コホーネンネット)

・連関規則(バスケット分析)

の4つを扱っている。

 

メモ書き

 

データマイニングとは?

・データマイニングとは、大量のデータから価値ある情報を引き出すデータ解析的方法のこと。

・注目を浴びるようになった背景としては、インターネットの発展で、データのコストが下がり、データ収集が容易になったことがあげられる。データが溜まってるのに活用しないのは宝の持ち腐れだよね、という発想。

 

従来の統計的データ解析との違いは?

2つある。

①交差妥当化(cross validation)の標準的使用

・過去は、データ収集コストが高かったために、基本的に集められるデータ量が少なく、集めたすべてのデータを標本としてモデルの構成・推定を行うのが普通だった

・単一なデータセットから効果的なモデルを作るためには、複雑な数理統計的な指標を参照する必要がある(らしい)

・しかし、データセットをモデル作成用と、モデル評価用の2つにわけることができれば、複雑な指標を参照しなくてもよい。

・データがたくさんある現在は十分にデータがあるので、クロスバリデーション実施が当たり前になる。

②最適性・一意性を重視しない思想

・データマイニング手法では、初期値や乱数の設定により出力結果が変化することが多い。

また、最適な解に到達することにもそんなにシビアではない。

・伝統的なデータ解析では、通常は最適な一意の解が得られるが、そのためには様々な制約条件(線形、定常性等)を仮定しないといけない。

・データマイニングでは、大量のデータを扱うということもあり、最小の計算量で(最適ではなくとも)分析目的を達成できる解にたどり着くことを吉とする。

 

 

一番関心がひかれたデータマイニング手法

・連関規則(association rule)

・Aを買うお客さんは同時にBも併せて買う傾向がある、みたいな発見をするためのもの。

・自分のブログでこのページを見ている人は合わせてこのページも見ている、とか調べてみるの面白そう。

・特に、購買記録から有用な連関規則を見つける目的の分析をバスケット分析という。

・具体的にどうやってやるのか、という部分についてはきちんと書いていないが、ネットにたくさん書いてある。例えばこのサイトとかとてもわかりやすい。

・連関規則は、組み合わせが用意に膨大になり、計算量が大変なことになってしまうのが課題の1つで、情報を効率よく捨てる必要がある。

(1つの商品と1つの商品との連関、2つの商品と1つの商品の連関、3つの商品と1つの商品との連関、、というように考えていくと、あっという間に組み合わせが増える。)

・結果の解釈が肝であるように感じた。よい連関規則かどうかの判断軸は、以下のとおり。

※Bは好ましい事象(商品が売れる、とか契約が取れるとか)

・前提確率 p(A):前提確率が高い=Aが生じる確率が高い→その規則を適用できるチャンスが多い

・条件付き確率 p(B|A):AのもとでBが生じる確率。条件付き確率が高いと、適用さえできれば高い確率でヒットする。信頼度とも呼ばれる。

・同時確率 p(A,B):前提確率と条件付き確率の積で、両方を考慮した指標。サポートとも呼ばれる。

・事前確率 p(B):条件付き確率よりも事前確率が低いと、よい規則。

 

おわり