目の前を飛んでった話


「未踏テキスト情報中のキーワードの自動抽出システム」
http://www.ipa.go.jp/NBP/12nendo/12mito/mdata/10-36h.htm

 最新の技術情報の速報やニューズ(未踏テキスト)の整理や検索のため、キーワードを人の手で付与することが行われているが、この作業を自動化できればキーワードが付されていない文書の操作は容易となる。ここで、キーワードの対象となる語を辞書に登録し、それが含まれているかどうかの判断をする処理は可能であるが、最新の文書に含まれるキーワードを辞書に登録し続けるのはコストが高い。本提案は、辞書を用いないという条件のもとで、文章からキーワードを自動抽出するという問題を設定し、手法として、文字列の頻度に加えて、出現集中を示す統計量を使うことを特徴とするもの。

 自然言語処理の基本技術として、形態素解析は、かつてより数多くの取り組みがなされてきた。また、実用化されている製品も少なくない。しかし、その多くが膨大なシステム辞書(数十万語)を必要とし、その構築に多大な時間とコストを必要とする。当システムは、この辞書を必要とせず、統計的な手法をもって形態素解析を実現しようとする試みである。


 統計が辞書の代わりになるというのが、にわかには信じがたいけど、想像してることと違うのかな。

特許出願予定だったそうで、その後の進展を含めてたぶんこちら、

  • 特開2002-197095 キーワード抽出装置および情報検索装置
  • 特開2003-228571 文字列の出現頻度の計数方法およびその方法を利用可能な装置
  • 特開2004-013726 キーワード抽出装置および情報検索装置