robots.txtで検索エンジンにサイトマップのありかを教える

2013/7/21 ウェブ

robots.txtは検索エンジンロボットに命令をだすファイルです。
検索エンジンロボットはサイトに訪問したら、まず最初にrobots.txtを確認するよう設計されています。
そこでrobots.txtファイルにサイトマップファイルのパスを記述しておきます。

robots.txtの設置方法
1.windowsのメモ帳で充分です。下記の２行を記述して「robots.txt」の名前で保存。
2.ルートディレクトリにアップロードするだけです。

User-agent: *
Sitemap: http://www.rottie.jp/sitemap.xml

User-agentは、適用するロボットを指定しています。
[全てのロボット] User-agent: *（アスタリスク）「ワイルドカードと呼びます」
[Google] User-agent: Googlebot
[Yahoo] User-agent: Slurp
Sitemapは（http://～）から始まるフルパスで記述する。

一般的なrobots.txtの用途
通常、このrobots.txtはアクセス制御の目的で使用されます。検索エンジンにインデックスされたくないページ（検索結果に表示されたくないページ）がある場合に指定します。
User-agent: *
Disallow: ブロックするURL

サイト全体 Disallow: /
ディレクトリとそのコンテンツ Disallow: /ディレクトリ名/
個々のページ Disallow: /ファイル名.html

※最後に、全ての検索エンジンロボットが命令に従ってくれるとは限りません。
絶対にインデックスされたくないページがある場合は他の方法を使う必要があります。

ちなみにGoogleではアクセス制御がない場合はrobots.txtは必要ないといっています。
robots.txt ファイルが必要となるのは、サイトに検索エンジンのインデックスに登録したくないコンテンツが含まれる場合のみです。サイトのすべてのコンテンツを検索エンジンのインデックスに登録したい場合は、空であっても robots.txt ファイルは必要ありません。（http://support.google.com/webmasters）