musashi データマイニング

聞くところによると、データマイニングのテクニックって、もともとのデータマイニング由来のものと、多変量解析由来のもの、とがあるらしい。もともとのデータマイニング(ややこしい)由来がクラスタリングやプロファイリングなどで、多変量解析由来がコレスポンデンス分析などなのだそうだ。コレスポンデンス分析がいわゆる多次元での相関に関わる話。(多変量解析由来のテクニックがmusashiでは開発中ということらしい)

テキストマイニングの例を読んだのだけど、キーワード抽出が必要らしい。キーワード抽出って普通に会話の中で使われてるが、いざ自分たちで作ると大変だと思うので、musashi同様にオープンソースのもの(もしくは参考になるもの)があれば良いが。

テキストマイニングなどは、自由書式のアンケートなどの分析に使われるのだそうだ。そういえばスポーツクラブのインストラクタのお客さんへの態度の分析に用いられて、解約率の低下に繋げることができた、というTVの特集を見たと思う。たしかけっこう違和感無く当たり前のことですよという感じで普通に分析してたような。会社はどこだったかな?