Home - shikencho.com - インターネット最強の検索術
英語と日本語の違い
サーチエンジンの多くは「フレーズ検索」に対応しています。みなさんはこの「フレーズ検索」を使ったことがあるでしょうか。
海外のサーチエンジンの場合の「フレーズ検索」の仕組みは単純です。例えば「like a rolling stone」というキーワードで検索すると普通はそれぞれの単語のAND検索となります(a のような単純すぎる単語は無視されますが…)。しかしこれを「"like a rolling stone"」という具合に「""」でくくって指定すると、それをそのまま「フレーズ」として検索します。つまり「そのような単語の並び」があるページを検索するのです。
では日本語の場合はどうでしょうか。日本語は英語と違ってスペースによる「わかち書き」がされていないため、「フレーズ検索」は英語の場合と違った意味で使われるのです。
サーチエンジンはキーワードを分解している
ロボット型のサーチエンジンがウェブの情報を収集して検索用のデータとして蓄積するときに、日本語の文章を単語レベルに分解してインデックスを作ります。これと同じように、キーワードとして入力された語句も実は単語レベルに分解しています。例えば次のような語句をキーワードとして指定したとしましょう。
これを多くのサーチエンジンは
と分解しています。さらに助詞等を無視して「インターネット 情報 検索」といった単語で検索するのです。
といってもサーチエンジンによってこれらの語句の扱い方には差があるようです。いくつかのサーチエンジンで検証してみました。
- 訂正(2007-06-30)
- 以下のサーチエンジンのほとんどは現在はなくなっていますし、生存していたとしてもその設定は変わっています。まあ、当時はこんな感じだったよ、ということで。
- InfoNavigator、LYCOS、Google
- 文章による検索は助詞等を無視して各語句の語順を保持したフレーズを検索します。つまり「インターネットで情報を検索する」とキーワードを指定した場合は「インターネットから情報を検索」とか「インターネットによって情報を検索」といったフレーズも検索されます。
- goo
- オプションの指定なしや検索条件を「フレーズ」にして文章をキーワードにした場合は、その文章そのものが掲載されているページだけを検索します。助詞等の違いによって検索結果は大きく異なります。キーワードを「インターネット 情報検索」のようにスペースで区切って指定すると通常のAND検索となりますが、この状態で検索条件を「フレーズ」に指定するとこの3つの語をその入力順に含むフレーズ、例えば「インターネットで情報を検索する」といったものを検索することができます。
- excite
- 文章による検索は助詞等を無視した各語句のOR検索となります。各語句をスペースで区切って指定したものとほぼ同様の結果が得られます。キーワードとなる文章を「""」で囲んだ場合にはInfoNavigator、LYCOS、Googleと同様の「語順を保持したフレーズ」の検索となります。
- kensaku.org(Ringring)
- 文章による検索は、その文章そのものが掲載されているページだけを検索します。gooのデフォルトの指定と同様です。
- infoseek
- 文章を指定するとその文章を構成する語句の独自の解析を行って同義語や表記のゆれに対応しているようです。ですから、「インターネット 情報検索」と単語で指定してAND検索するよりも「インターネットで情報を検索する」といった文章で検索したほうが結果件数が多くなります。
以上のようにサーチエンジンによってフレーズの対応方法はまちまちですが、これらの処理方法を明確に解説したページがないため、検証した結果から類推してまとめてみました。このあたりの情報についてはもう少しオープンにしてほしいものです。