その名はWebFountain!


WebFountainで次世代の検索に挑むIBM

話の規模が大きいせいか、読んでてもどうも実感が乏しくなるのは仕方がない。(-_-;) それでもなんとか読み進むと…

ハードやソフトを自前で購入するのではなく、必要な処理能力だけを中央のプロバイダからレンタルするという新しいコンピューティングモデルを提唱してきたからだ。WebFountainはこのユーティリティコンピューティング構想にぴったりと当てはまる。IBMはこのプロジェクトを通して、ソフトウェアメーカーにデータマイニング機能を切り売りするバックエンドの仕組みを構築するつもりだ。


Google型でやるということなのだろう。たぶん重要な手法については論文も出さないし特許も出願しないだろうな。

「ハブとオーソリティ」理論では、ウェブで情報を見つける最良の方法が、最大規模で一番人気のあるサイトを見ることだとしている。一般に、「ハブ」はウェブポータルや専門家のコミュニティを、「オーソリティ」は重要度の高いサイトを指す。どのサイトが「オーソリティ」かは、サイトにリンクしているウェブページの数や影響力から判断される。オーソリティの概念はGoogle検索の中核アルゴリズムPageRankにも反映されている。
しかし、IBMの研究者は徐々にこの理論から遠ざかっていく。ハブとオーソリティの理論が軽視しているページ、つまり掲示板やBlog、ニュースグループといった構造化されていないページの方が、興味深いデータを引き出すにあたって役立つと考えるようになったからだ。


/.j なんかでも時々ハッとさせられる意見はあるもんね。でも、そういう意見に対するスコアが高いとは限らないというのが/.の面白いところだけど。
Microsoftはネットニュースに対する分析をやってたはず。たしか。


アンケート分析では、「文章の意味自体には踏み込まず、他の文章などと合わせてキーワードの統計的な結びつきを示し、人間が意味付けする」という感じなのだけど、webテキストマイニングだとデータも桁違いに大量だから意味も含めて分析して最終的な可能性を提示するという仕組にしないとやってられないということなのだろうな。データが大量だったら統計的な結びつきを提示されても把握できっこないし。
しかし…


それにしても、いったい何が起きようとしてるのでしょうかね?
さすがにこれだけ話が大きいと自分と直接の関わりを持つとは思えないけど、世の中の方向性ぐらいは知っておきたいとは思う。



もちろん結局何も起きない可能性もあるわけだけど。