本記事では、robots.txtについてわかりやすくまとめました。ウェブサイトの管理者やSEOに興味がある方にとって、知っておくべき内容が詰まっています。
Table of Contents
robots.txtとは?
robots.txtとは、ウェブサイトの管理者が検索エンジンのクローラー(ボット)に対して、サイトのどの部分をクロール(探索)しても良いか、またはしないで欲しいかを指定するためのテキストファイルです。ファイルの内容は非常にシンプルで、一般的に「User-agent」(クローラーの種類)と「Disallow」(クロールを禁止するパス)から構成されています。たとえば、全てのクローラーに特定のディレクトリをクロールしないよう指示したい場合、「User-agent: *」と「Disallow: /secret-directory/」と記述します。
robots.txtはどのように考案されたのか
robots.txtは、1990年代初期に検索エンジンが普及し始めた頃、ウェブサイト運営者たちが、自サイトの特定の部分をクローラーに探査されないよう制御したいというニーズから考案されました。1994年に「ロボット排除標準プロトコル」として初めて文書化され、今もその形式は基本的に変わっていません。
robots.txtを学ぶ上でつまづくポイント
robots.txtを理解する上でつまづく点の一つは、その制約です。例えば、ファイル自体が検索エンジンのクローラーへの提案に過ぎず、確実に従うことを保証するものではありません。さらに、robots.txtで禁止されたコンテンツが検索結果に完全に表示されないとは限らないため、機密情報の保護には向いていません。また、単純な記述ミスで本来クロールを許可するはずの部分がクロールされなくなったり、その逆が起こったりする可能性もあります。
robots.txtの構造
robots.txtの基本構造は以下のようなシンプルなルールで構成されています:
- User-agent: 対象とするクローラーを指定します。すべてのクローラーに対してルールを適用する場合は「*」を使用します。
- Disallow: 指定したパスへのクロールを禁止します。特定のディレクトリやファイルを指定可能です。
- Allow: クロールを禁止したディレクトリ内でもクロールを許可したいファイルやサブディレクトリを指定できます。
robots.txtを利用する場面
robots.txtは、ウェブサイトの開発中やプライバシーが必要なページの非公開時に利用されます。たとえば、新製品を発表する前に準備中のページをクローラーに見つけられないようにしたり、社内専用のデータを公開しないようにする場合などに役立ちます。また、クロール頻度の調整や重複コンテンツを避けるための手段としても使用されます。
さらに賢くなる豆知識
robots.txtのファイルサイズには制限があります。Googleは最大500KBまでのファイルをサポートし、それを超える部分は無視されるため、ファイルを適切に圧縮するか、不要なルールを取り除く必要があります。
あわせてこれも押さえよう!
- XMLサイトマップ
- メタタグ
- URL正規化
- クローラビリティ
- クローリングバジェット
検索エンジンにウェブサイト全体のページ構造を示すためのファイルです。
ウェブページのヘッダー部分でクローラーに特定の指示を与えるためのタグです。
同じ内容を持つページが複数のURLでアクセス可能な場合に一つのURLに統一する手法です。
クローラーがウェブサイトの全ページに効率的にアクセスできる状態を示します。
検索エンジンが特定のウェブサイトをクロールする際に割り当てるリソースの上限です。
まとめ
robots.txtは、クローラーの動作を制御するために非常に有用なツールです。正しく設定することで、検索エンジン最適化(SEO)を効率的に行い、サイトの機密性を保ち、不要なクロールを避けてリソースを節約することができます。これらの知識を活用することで、ウェブサイト運営をよりスムーズに行うことが可能になります。