musashiを使ってテキストマイニング ver.0.2


musashi_textで特許の明細書を分析できんかなー、と思った。「データの入手が楽そう」というところから考え始めたんで本末転倒なのだけれども。(-_-;

  • 技術文書である
  • 用語(単語)は普通と違った使われ方のものが多いけど、一応文書内のどこかで定義され一貫してるはず


他の明細書といっしょくたにはできなさそう(明細書を書く人間によって単語の意味がバラバラになることは普通に起きる)。でも、主題(と関連する単語とか)は繰り返し出て来るはずだから、明細書がある程度の長さであれば単独でもなんとかならんかね。(-_-;


しかし…
分析してなんらかの関係性を求めても、単語の意味自体が違えばそのままでは比較のしようがないか。人間が明細書を読む場合、全体の意味を理解してから単語の意味を類推しなおすぐらいのことはやってるわ(なんというか行きつ戻りつを繰り返す面倒な作業である)。


同義語の判断は人にやってもらうとして、その辺の指定の仕方(同義語の取り扱い方)なんかうまくやれば… まあまあ使えるようになってくれたりとかしないか…


まあ、道具は厳しい状況で使ってみないといつまでたっても進歩しないから、一度はやってみようと思う。
例えばパテントマップを作る時って、今は全部手作業でやってるのかな。