musashiを使ってテキストマイニング


どうも話を聞いてると、今のやり方よりも決定木を用いる方法のほうが良いらしい。いろいろ勘案してアルゴリズムを変更することに。次のリリースで。
いろいろ判断するのにキーワードの出現分布が良さそうなので、これもグラフで表示して他のものと比較できるようにする予定。
出現分布を見られるなら、勘のいい人ならなんとなく判っちゃうんじゃないかな(統計的な手法を使うなら「あっ」と驚くような結果は出て来ないし)。まあグラフを念入りに見ることができるのはデータが比較的小さい場合だけだろうから、どの程度ならというのを知るためにもとりあえず作ってみよう。


次のリリースといっても、最初のリリースがまだ(笑)。いろいろな事情で待ち…