Home - shikencho.com - インターネット最強の検索術
サーチエンジン
インターネットで何かを調べたい、つまりWeb上での情報検索に欠かせない機能を提供してくれるのがサーチエンジン(検索エンジン)である。日本語のページだけで数千万URLもあると言われる膨大な情報の中から必要な情報が簡単に探せだせるなら、インターネットは非常に強力なツールとなるだろう。そのためにはサーチエンジンについての基本的な知識が必須となる。まずこの章でサーチエンジンの基本を押さえておこう。
- 訂正(2007-06-30): 現在では日本語のページは数十億くらいかな。
サーチエンジンとは何か
サーチエンジンとは、与えられた検索語に対してそれに適合するサイトやページをリストアップしてくれるインターネットのサービスサイトである。サーチエンジンサイトには様々な種類があるが、その使い方に大きな違いはない。
- 検索語の入力
- データベースの検索
- 適合サイト(ページ)の出力
- 検索結果リストから適当なサイト(ページ)への移動
といった手順で必要な情報の載っているサイトやページに関する情報を提供してくれるのがサーチエンジンの役目である。使い方は極めて簡単ではある。しかし、サーチエンジンの種類や性格を正しく把握しておかないと、期待する結果を得ることは難しいだろう。
サーチエンジンの種類
まず、サーチエンジンの種類には大きく分けて次の二つがある。
- サイト検索 : ディレクトリー型(登録系)サーチエンジン
- Webサイトを大分類、中分類、小分類のように多数のディレクトリー(カテゴリー)に分けて登録しているメガリンクサイトサービスである。ディレクトリーを何段階か辿ることによって目的のサイトを探したり、キーワードを指定して特定のサイトを探し出すこともできる。主なディレクトリー型サーチエンジンのサイト登録数は数万~数十万件である。
- ページ検索 : ロボット型(全文検索系)サーチエンジン
- ロボット(スパイダー、クローラーともいう)と呼ばれる特殊なプログラムがネット上を巡回し、Webページのテキスト情報を収集してデータベース化する全文検索系のサーチエンジンである。ディレクトリー型のようなカテゴリー分けしたサイト検索の機能ではなく、検索語として与えられたキーワードが存在するページを網羅的に探し出す。主なロボット型サーチエンジンのページ登録数は数百万~数千万件である。
- 訂正(2007-06-30): 現在のサーチエンジンのインデックスのサイズは百億以上にまでなっている。
サーチエンジンは「何」を検索する(サーチエンジンの特徴と長所、短所)
ディレクトリー型とロボット型では機能の本質的な部分が全くことなるため、必要に応じて使い分けることが無駄のない情報検索の第一歩である。ではその違いと長所、短所を確認しておこう。
- ディレクトリー型の特徴
- サイト検索である Web上の「サイト」単位で検索をする。Webを巨大な書籍に喩えるならばディレクトリー型サーチエンジンは「目次」の役割であると考えてよい。目次を見て適当な章を選び、その章の各ページを見て必要な情報を得る。
- 検索対象となる語句ディレクトリー型サーチエンジンでのキーワード検索の対象となるものは、サイトのタイトル、サマリー(そのサイトに関する紹介、説明文)である。サーチエンジンの種類によってはサイト分類のカテゴリ名やサイト運営者の名前、サイトのURLなどが検索対象となることもある。
- ディレクトリー型の長所、短所
- 【長所】
- 的確な検索語に対しては的確なサイトが検索される
- タイトルやサマリーに使われる語句が検索の対象となるので、検索結果としてヒットしたサイトが検索キーワードに関する情報の濃いサイトである可能性が高い。
- ディレクトリー階層を辿って目的のサイトを探すことができる
- キーワードを指定せずにディレクトリーの階層を順に辿ることによって求める情報に関するサイトの一覧を表示させることができる。
- 【短所】
- 登録件数が少ない
- 基本的に運営者の依頼によってサイトが登録されるので、その数は多くなく、Webを網羅するものではない。
- 特殊な検索語に対しては役に立たない
- サイトのタイトルやサマリーが検索語の対象となるので、特殊な専門用語で検索してもその結果は期待できない。
- サイト検索以外のオプションがサポートされていない
- Web上に存在するHTML以外のファイル(画像、音声、PDF、表計算、ワープロで使われるフォーマットのファイル)を検索することができない。
- ロボット型の特徴
- ページ検索である Web上の「ページ」単位で検索をする。Webを巨大な書籍に喩えるならばロボット型サーチエンジンは「索引」の役割であると考えてよい。索引によって特定の語句のあるページを網羅的に探し、直接のそのページを見て必要な情報を得る。
- 検索対象となる語句ロボット型サーチエンジンでのキーワード検索の対象となるものは、ページタイトル、ページ全体のテキスト部分である。サーチエンジンの種類によっては HTMLのコメントタグ(<!--~-->)内の語句や画像のALT属性、METAタグのキーワード指定などの語句も対象となる。
- ロボット型の長所、短所
- 【長所】
- 登録件数が多い
- サイト運営者の登録もできるが、基本的にはロボットというプログラムによるWebページの自動収集である。そのため、ロボットのプログラムの内容やデータベースの蓄積用のサーバの容量にもよるが、非常に多くのページを検索の対象とすることができる。
- 特殊な検索語でも検索される
- ページの全文検索であるため、どんな専門用語であろうともその語句が存在すればそのページを検索結果としてリストアップしてくれる。
- 様々なオプション検索が可能
- Web上に存在するHTML以外のファイル(画像、音声、PDF、表計算、ワープロで使われるフォーマットのファイル)をダウンロードできるページを探すことができる。また、検索対象ページのドメインの指定やページ更新日の範囲を指定することができるサーチエンジンもある。
- 【短所】
- 期待するページとまったく関係の無いページが多く検索される
- 求める情報とまったく関係のないページであっても検索語として指定したキーワードがあるだけでそのページがリストアップされてしまう。単純なキーワードでは検索結果の件数が数千~数十万件になることもあり、キーワードの追加による絞り込み作業が必須となる。
このように、ディレクトリー型とロボット型ではその長所と短所がまったく正反対なのである。そこで、最近ではディレクトリー型でもロボットによる情報収集の結果を提供したり、ロボット型でも独自の厳選サイトを集めたディレクトリーサービスを持つハイブリッドなサーチエンジンが増えてきている。
Boolean(検索演算子)について
ほとんどのサーチエンジンはBoolean(ブーリアン、検索演算子)に対応している。Booleanというのは、「and、or、not」といった演算子を用いた検索式による検索方法である。
- AND検索
- OR検索
- 両側のキーワードのいずれか一方(または両方)を含む
- NOT検索
さらに、「( )」を使って演算の優先順位を指定することもある。これはOR検索よりもAND検索の方が演算の優先順位が高いため、OR検索を優先させる場合に必要になる。 Booleanの演算子は各サーチエンジンによって多少異なるが、ここではAND検索を「and」、OR検索を「or」、NOT検索を「not」として簡単な検索式を「ベン図」を用いて説明しよう。
- 「A and B」

- 「A or B」

- 「A not B」

- 「(A or B) and C」

- 「A and B not C」

- 「A not (B or C)」

基本的な検索式のパターンは上記の通りだが、実際にはかなり複雑な式になることもある。その場合はなるべく簡潔でわかりやすい検索式にすべきだろう。
例えば、
は、
と書くべきである。
- 訂正(2006-06-30) : はっきり言って、演算子を駆使して検索をするというシーンはほとんどないでしょう。唯一、キーワードを省く演算子である「-」は使い慣れると非常に重宝します。
では、次の第2章で具体的にどのようなサーチエンジンがあるのかを紹介し、さらに第3章ではディレクトリー型とロボット型の使い分けの法則と、主にロボット型のサーチエンジンでの検索における「思考法」を紹介しよう。