HTML - ウェブサーバに設置しておく情報 - robots.txt
- 1. 概要
- 2. 記述方法
- 3. テスト
1. 概要
「robots.txt」とは、「Google」大先生に代表される検索エンジンが、ウェブサイトをクロールするときの動きやインデックスへの登録を制御するためにファイルです。
ウィキペディアでは直接的な「robots.txt」でなく「ウィキペディア - Robots Exclusion Standard」として紹介されています。
ウェブサイトのドキュメントルートに配置します。
「Google」大先生が「robots.txt」の記述方法、仕様について説明してくれていますので、参考にします。
「robots.txtの書き方と効果的な活用法」
(「3−2.robots.txtの書き方のルール」からが重要)
「Robots.txt の仕様」
2. 記述方法
書き方の基本形は以下の通りです。
<field>:<value><#optional-comment>
「<field>」は、大文字小文字を区別しません。
「<value>」は、「<field>」により、大文字小文字を区別するものがあります。
「<field>」直後の「:」(コロン) と「<value>」との間の空白はあけてもあけなくても文法的には問題ないとのこと。
ただし、あけて読みやすくする方が推奨されているとのことです。
「#」(シャープ)文字以降をコメントとみなすとのこと、「Unix」ライクな定義ファイルではおなじみのコメント形式です。
「Google」大先生では、ファイルサイズの最大は「500KB」とのこと。
フィールドもしくは(ディレクティブ)を記述して、「:」の次にフィールドに関する指定もしくは制御を記述します。
フィールド | 指 定・制 御 |
user-agent | どの検索エンジンに対する定義なのかを示します。 * を指定した場合は、すべての検索エンジンを対象とします。
「Robots Database」に検索エンジンが登録されているので参照することができます。 |
allow | ディレクトリを記述して、そのディレクトリ以下を検索することを許可します。 |
disallow | ディレクトリを記述して、そのディレクトリ以下を検索することを禁止します。 |
noindex | ディレクトリを記述して、そのディレクトリ以下を検索にインデックスとして登録することを禁止します。 |
sitemap | サイトマップの配置場所を示します。 |
「Google」大先生に関しては、「Robots.txt の仕様」で、このように動作しますという説明がありますので、そこに準ずる書き方をすれば、ほぼ、思ったように動いてくれるようです。
他の検索エンジンに関しては、まだ調べていません。
ここのサイトの例をあげると以下のようになっています。
User-agent: *
Allow: /
Sitemap: https://freebsd.sing.ne.jp/sitemap.xml
「Sitemap」の行は、1行あけるのが正しいとのことです。
3. テスト
テストツールを「Google」大先生が、用意してくれています。
「Google Search Console」への登録とブラウザでログインを済ませておかないといけませんが。
下記のサイトへ行くと「Google」大先生が誘導してくれます。
「robots.txt テスター」
「プロパティを選択してください」のコンボボックスを開くと自分の登録しているサイトが表示されます。
試験するサイトを選択します。
当サイトの「robots.txt」をチェックしました。
今回は「エラー」も「警告」もありませんでした。
|
|