1. HTML - ウェブサーバに設置しておく情報 - robots.txt

 
1.1 robots.txt とは
1.2 記述方法
1.3 テスト

1.1 robots.txt とは

 「robots.txt」とは、Google に代表される検索エンジンが、ウェブサイトをクロールするときの動きやインデックスへの登録を制御するためにファイルです。  ウィキペディアでは直接的な robots.txt でなく「ウィキペディア - Robots Exclusion Standard」として紹介されています。  ウェブサイトのドキュメントルートに配置します。  Google 大先生が robots.txt の記述方法、仕様について説明してくれていますので、参考にしましょう。
robots.txtの書き方と効果的な活用法」
(「3−2.robots.txtの書き方のルール」からが重要)

「Robots.txt の仕様

1.2 記述方法

 書き方の基本形は以下の通りです。

<field>:<value><#optional-comment>
 <field> は、大文字小文字を区別しません。  <value> は、<field> により大文字小文字を区別するものがあります。  <field> 直後の [:](コロン) と <value> との間の空白はあけてもあけなくても文法的には問題ないとのこと。  ただし、あけて読みやすくする方が推奨されているとのことです。  [#](シャープ)文字以降をコメントとみなすとのこと、Unix ライクな定義ファイルではおなじみのコメント形式です。  Google 大先生では、ファイルサイズの最大は 500KB とのこと。  フィールドもしくは(ディレクティブ)を記述して、: の次にフィールドに関する指定もしくは制御を記述します。
フィールド 指定・制御
user-agent どの検索エンジンに対する定義なのかを示します。
* を指定した場合は、すべての検索エンジンを対象とします。
Robots Database」に検索エンジンが登録されているので参照することができます。
allow ディレクトリを記述して、そのディレクトリ以下を検索することを許可します。
disallow ディレクトリを記述して、そのディレクトリ以下を検索することを禁止します。
noindex ディレクトリを記述して、そのディレクトリ以下を検索にインデックスとして登録することを禁止します。
sitemap サイトマップの配置場所を示します。

 Google に関しては、「Robots.txt の仕様」で、このように動作しますという説明がありますので、そこに準ずる書き方をすれば、ほぼ、思ったように動いてくれるようです。
 他の検索エンジンに関しては、まだ調べていません。

 ここのサイトの例をあげると以下のようになっています。


User-agent: *
Allow: /

Sitemap: http://freebsd.sing.ne.jp/sitemap.xml
 Sitemap の行は、1行あけるのが正しいとのことです。

1.3 テスト

 テストツールを Google 大先生が用意してくれています。  Google Search Console への登録とブラウザでログインを済ませておかないといけませんが。  下記のサイトへ行くと Google 大先生が誘導してくれます。
robots.txt テスター
 「プロパティを選択してください」のコンボボックスを開くと自分の登録しているサイトが表示されます。  試験するサイトを選択します。

 当サイトの robots.txt をチェックしました。
 今回は「エラー」も「警告」もありませんでした。