Home - shikencho.com - インターネット最強の検索術

英語と日本語の違い

サーチエンジンの多くは「フレーズ検索」に対応しています。みなさんはこの「フレーズ検索」を使ったことがあるでしょうか。

海外のサーチエンジンの場合の「フレーズ検索」の仕組みは単純です。例えば「like a rolling stone」というキーワードで検索すると普通はそれぞれの単語のAND検索となります(a のような単純すぎる単語は無視されますが…)。しかしこれを「"like a rolling stone"」という具合に「""」でくくって指定すると、それをそのまま「フレーズ」として検索します。つまり「そのような単語の並び」があるページを検索するのです。

では日本語の場合はどうでしょうか。日本語は英語と違ってスペースによる「わかち書き」がされていないため、「フレーズ検索」は英語の場合と違った意味で使われるのです。

サーチエンジンはキーワードを分解している

ロボット型のサーチエンジンがウェブの情報を収集して検索用のデータとして蓄積するときに、日本語の文章を単語レベルに分解してインデックスを作ります。これと同じように、キーワードとして入力された語句も実は単語レベルに分解しています。例えば次のような語句をキーワードとして指定したとしましょう。

これを多くのサーチエンジンは

と分解しています。さらに助詞等を無視して「インターネット 情報 検索」といった単語で検索するのです。

といってもサーチエンジンによってこれらの語句の扱い方には差があるようです。いくつかのサーチエンジンで検証してみました。

以上のようにサーチエンジンによってフレーズの対応方法はまちまちですが、これらの処理方法を明確に解説したページがないため、検証した結果から類推してまとめてみました。このあたりの情報についてはもう少しオープンにしてほしいものです。

eXTReMe Tracker
shikencho.com