musashiを使ってテキストマイニング


頭、ぼー状態(鼻水で)。

アソシエーション分析の説明を探してて見つけたのは、有名な「おむつ」と「ビール」の例。

  • 「おむつ」→「ビール」(「おむつ」を買いに来て、ついでに「ビール」を買う)

しかし、細かいことを言えば「レシート」だけを使っても、こういう結論は得られないはずである。「レシート」だけでは上の関係は

  • 「ビール」→「おむつ」(「ビール」を買いに来て、ついでに「おむつ」を買う)

という関係と区別できないだろうから。要するにもともとどっちでも良い例なのである。そんな「おむつ」と「ビール」の例がアソシエーション分析の妥当な適用例と考えられているのなら、テキストの分析に使っても別に良いのかなと思えてきた。テキストであれば、

  • −−単語A−−−−−−単語B−−−−

  • −−−−単語B−−−単語A−−−−−

を、分けて扱うことは意味が有りそうだし(例えば、上ではAとBは結びついてるとする。しかし下ではBはそれ以前に出現したA以外の単語と結びついてるかもしれない)、アソシエーション分析を使えば実際に分けて扱えそうである。まあ因果関係というよりは単なる並び順だけど。


少なくとも試す気にはなった。