2005/09/22
Technoratibot って何でしょう?
何者なのか、ずんべも知らなかったのだが、どうもブログ専門の検索エンジンらしい。
Technorati
このロボットは、検索キーワードの取得方法が、ブログならではの方式になっている。
Google や Yahoo などの一般的な検索エンジンでは、HTML上のリンクをたどりながら、ページをクロールしていく。
ところが、Technoratibot ではHTMLのリンクをたどる事はしないようだ。
アクセスログを見ると、atom.xml、index.rdf、index.xml などのRSS情報を拾っていっている。
一応、/ も拾っているようだが、HTMLのリンクをたどった形跡はない。
これなら、ブログの記事だけを拾い集め、ページにくっついているバナーなどの余計な情報はカットできる。なるほど。
一応、/ も拾っているのは、ページの名称とか、<META>を拾うためだろう。
これはぜひ、Google や Yahoo でも採用してほしい実装だ。
ただ、RSS情報だけを拾っているという事は、古い記事は検索情報として登録されない点は不満が残るところか。
まだ登録されているサイトが少ないせいだろうか、データベースへの登録も早い。
アクセスログでは、2005/09/22 にクロールされた事が記録されているが、今(2005/09/22)にサイトにアクセスして検索すると、もうヒットする。
投稿者 zunbe : 2005/09/22 08:56:39
|