HTML - ウェブサーバに設置しておく情報 - sitemap.xml

 クラウディア
1. 概要
2. 自動生成ツール
3. 記述方法
4. すべて記述すべし

1. 概要

 いまや、ウェブを管理するとなると、コンテンツの他に、今まで述べたもののようなものや、ここで説明する「sitemap.xml」のように余分に作らなければならないものがあるので、大変なのです。  「sitemap.xml」は、コンテンツディレクトリにおいて、ディレクトリツリーの優先度やら更新頻度やらを定義して「検索エンジンさま」に理解してもらって効率よくクロールしてもらったり、検索結果に表示してもらうためのものです。  なんだか、今や(2022年6月14日に気づいた、もっと大昔からあるらしいが)「ror.xml」というものもあるんですってね。  本ページは、下記のサイトを参考にさせていただきました。
Sitemapsの記述方法」
「XMLサイトマップの作り方 | URLやサイトマップ、リダイレクト

2. 自動生成ツール

 ダウンロードしてきて、自分のサイトで使用するタイプのものや、必要な項目を入力してウェブ越しにクロールして作成するもの等々、いろいろなものがあります。  わたしがここのサイトを作成した際は、下記のサイトのものを使ったような気がします(すみません、よく覚えていないんです)。
サイトマップを作成-自動生成ツール『sitemap.xml Editor』

3. 記述方法

 以下、「Yahoo Japan」の「Sitemapsの記述方法」のほぼ丸写しですが、

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE urlset>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

  <url>
    <loc>URL</loc>
    <lastmod>最終更新日</lastmod>
    <changefreq>更新頻度</changefreq>
    <priority>優先度</priority>
  </url>

</urlset>
 2024年7月23日、2行目は撤回します。  2行目と3行目を入れ替えればもしかしたら、うまくいきますが・・・。  どうも、2024年7月23日現在、「Bing」への登録用の「sitemap.xml」に「<!DOCTYPE urlset>」の記述があると。  「サイトマップが見つからないか、検出されませんでした」と言われちゃうのです。  行をなくしたら、認識してくれたようです。  文字コードは「UTF-8」で記述します。  先頭の3行と末尾の1行は固定です。  コンテンツツリーが複数存在する場合は、ツリーの数ごとに「<url> ~ </url>」を繰り返して書いていきます。  「<url>」内の項目について記述すると、以下のようになります。
タ グ 項 目 内    容 備 考
loc URL 「http」または「https」ではじまる、サイトの「URL」をフルスペルで記述
lastmod 最終更新日 最終更新日を「YYYY-MM-DD」または
(W3C datetime)「YYYY-MM-DDTHH:MI:SS+09:00」形式で記述
※1
changefreq 更新頻度 コンテンツの更新頻度 ※2
priority 優先度 優先度を「0.0 ~ 1.0」の範囲で記述 ※3

 ※1 最終更新日
面倒なようでしたら、日付までをおすすめします。
動的コンテンツの場合。前項のような自動生成ツールでは、正しい最終更新日を取得できないことがありますので、手書きで記入する羽目になります。
 ※2 更新頻度
面倒なようでしたら、日付までをおすすめします。
検索エンジンがクロールする頻度の目安にはするでしょうが、あてにはなりません。省略可能らしいので、省略しちゃう方が無難かもしれません。
一応、頻度は以下の形式で記述可能です(「Yahoo Japan」の丸写し)。
実は、調べるまで、「daily」「weekly」「monthly」以外を使えることを知らなかったのです。
「Google 大先生」のクローラはこの項目を利用しないのだそうな。
記 述 意  味
always アクセスする都度更新
hourly 毎時
daily 毎日
weekly 毎週
monthly 毎月
yearly 毎年
never 更新なし

 ※3 優先度
デフォルトが 0.5 だそうな。
サイト内の優先度なので、全部に「1.0」をつけるような馬鹿な真似をしても意味はありません。
「Google 大先生」のクローラはこの項目も利用しないのだそうな。

4. すべて記述すべし

 これは、単にわたしが馬鹿野郎であったという話なのですが・・・。  英語文盲だと、こんなことになってしまうという話で。  「Google 大先生」が「インデックスに登録されていません」なんぞとおっしゃるものですから・・・。  インデックスというからには、「sitemap.xml」には、目次となるようなコンテンツを書いておけばいいとすっかり信じておりましたのだ。  すると、なんかあれこれ調べていると、アクセスされたくないもの以外は、ほぼすべてのコンテンツを記述するもんだそうな。  (うわ、やば、ということで、あわてて書き直すのですが・・・)  ただし、「XMLサイトマップの作り方 | URLやサイトマップ、リダイレクト」によれば。  「sitemap.xml」に記述可能な「URL」は、「50,000」までだそうな。まぁ、上限をみれば、目次程度でないことは、わかりますけどね。  また、1ファイルのサイズは「50 MB」が上限だそうな。  いずれも、上限を上回りそうな場合は、サブディレクトリ等で、分割すべしとのことです。
earthcar(アースカー)