SEO対策をする上でクローラーとはどうやって付き合っていくべき?クローラーが巡回しやすいサイト作りを意識しよう
本記事ではSEO対策をする時によく話題になるクローラーについて重点を置いて解説する記事になっています。
クローラーってそもそも何?という基本的なことから、クローラーが情報を集めやすいサイト作りについて解説します。
クローラーってそもそも何?
SEO対策を行う時によく話題に挙がるクローラーですが、いったいどのような目的でクローラーが存在し、何をしているのでしょうか。
そもそもクローラーとは、検索エンジンがネット上のWebサイトの画像やテキストといったようなデータを収集するためのプログラムのことです。
検索エンジン毎にそれぞれ異なったクローラーがありますが、日本ではGoogleのシェア率が80%以上になります。そのため基本的にはクローラーへの対策はGoogleの検索エンジンで用いられるクローラーに向けての対策を行う事になります。
クローラーがサイトを巡回する際には、既にデータベース化しているサイトからリンクを辿って自動的に移動を行います。そのリンク先のページで解析を行い、検索エンジンに表示されやすいデータに変換され、データベースへ登録を行います。
クローラーがサーバーと通信する際には「HTTP/HTTPSプロトコル」になるので、ここから取得できる情報がデータベースに保管される対象になります。
具体的には「テキストファイル」「CSSファイル」「JavaScriptファイル」「画像」「PDF」などが取得することの出来る情報になります。
サイトはクローラーが巡回することで初めて検索エンジンの結果に表示されます。
そのためクローラーが巡回されないサイトでは検索結果に表示されることはありません。
その逆で何度も巡回されることにより、サイトの最新の情報で評価されるので、表示される順位に影響していきます。
申告してクローラーに巡回してもらうことも可能
先程述べたようにクローラーに巡回してもらわなければ検索結果に表示されません。
いち早く検索結果に反映させたいときは、Googleの場合は「Googleサーチコンソール」にWebアドレスを登録しましょう。
登録したアドレスにクローラーがサイト内のそれぞれのページのリンクを辿ることでデータを収集します。
URLを登録しておくことで効率よくクロールが行われる訳ではないですが、
登録しておいて損はないので登録することをおすすめします
検索エンジンの仕組みはどうなってるの?
クローラーは検索エンジンの検索結果に影響するものですが、そもそも検索エンジンの仕組みについて改めて解説していきます。
検索エンジンはGoogleやYahoo!などの代表的なインターネット上のコンテンツを検索することの出来るシステムの総称になっています。
インターネットが発達した初期の検索エンジンでは人の手でサイトの情報を集め、カテゴリー毎に分類を行い検索エンジンの結果に反映していました。しかし現在では技術が発展しクローラーというロボットによってサイトが集められいます。
このロボットによる検索エンジンの検索結果で3つの特徴的なプログラムで構成されていてそれが検索結果をユーザーへ示すことが出来ます。
・各WebサイトのHTMLや画像といった情報を集め、データベース化を行いサイト内を巡回するクローラーと呼ばれているプログラム
・クローラーが収集したデータベースにある情報を分析し、評価するプログラム
・検索サイトで入力されたキーワードに対し、評価に基づいて検索結果を表示するプログラム
これらが検索エンジンの仕組みになります。
クローラビリティの効率を上げるためにやるべきこと
クローラーがサイト内を巡回しやすくすることをクローラビリティといいます。
そんなクローラビリティを意識するにあたって、対策するべきことについて4つに分けて解説していきます。
サイトマップを活用してクローラビリティを向上
「サイトマップ」を利用することでクローラビリティを向上させることが出来ます。
サイトマップを利用するには「Googleサーチコンソール」を活用しましょう。
サイトマップとはサイト内のURLや、更新頻度や更新日時を記述できるXML形式のファイルです。
WordPressではプラグインを利用することでサイトマップを自動生成する機能を追加することも出来ます。
生成されたサイトマップのアドレスをツールに登録すると、クローラーが対象のページのデータを収集を行います。
URLの正規化を行いクローラビリティを向上
サイトマップも大事ですがリンクの設定を一度見直しましょう。
「http」「https」から始まるものや、「www」の有無などURLには多くのパターンが存在します。
特に「www」の有無はとても重要で、クローラーが別のサーバーへのリンクとして間違えて認識してしまう可能性があります。
同じドメインの同じサイトであったとしても、役割に応じて別のサーバを割り当てて使用することも可能です。
「サーチコンソール」といったツールでもホスト名や「http」「https」の違いによって、それぞれで登録を促されてしまうのは、別のサーバのコンテンツとして認識されてしまうからです。
クローラーに正しいHTTPステータスコードを返そう
既に削除されてしまったページや移動したページは、それぞれ正しい「HTTPステータスコード」を返すのが望ましいです。
「HTTPステータスコード」とはWebサーバーからのレスポンスを意味を表現する3桁のコードのことです。完全に削除してしまったページの場合は「410」、恒久的にページを移動した場合は「301」、一時的なページの移動の場合は「302」といったような、そのサイトの現在の状況のステータスコードを正しく返す事が望ましいです。
正しいステータスコードを返せない場合はエラーとして認識してされてしまう為、これらのステータスコードを多く返すサイトの場合はクローラビリティを低下させてしまう場合があるので気を付けましょう。
ナビゲーションやリンクを改善しよう
クローラーはページ内のリンクを辿って、ページを巡回することでデータを収集します。
そのためクローラーが巡回してデータをする場合、リンクが切れてしまったり、適切なリンク先が設定されていない場合などはインデックスから削除されてしまいます。
通常はリンクを設定する際にHTMLのAタグにしますが、JavaScriptなどで動的にリンクを作成する場合、クローラーがうまくJavaScriptの解釈が出来ずにリンク先がない状態と見なされてしまうこともあります。
万全な対策を行うためには従来通り、適切なテキストを設定し、静的なHTMLをナビゲーションにて設定しましょう。
まとめ
ここで改めて本記事のおさらいをしていきます。
・クローラーは、検索エンジンが検索結果を決める際の情報を集めるロボット
・検索エンジンは、インターネット上のコンテンツを検索するサービスの総称である
・クローラーがサイトを巡回しやすいのかを示すクローラビリティを意識したサイト作りをすることが望ましい。
・クローラビリティを向上させるためには「サイトマップ」「URLの正規化」「HTTPステータスコード」「ナビゲーション・リンク」の4つの要素に注意して行う
・Googleのクローラーのアルゴリズムは不定期で変更されますが、Googleの理念自体は変わらないためサイト内の質の維持を行っていく事も大切
以上が今回のまとめになりました。