Googleがページを検出できるよう手助けする
内部リンク設定について
サイト上のすべてのページが、検出可能な別のページからのリンクでアクセスできることを確認します。参照リンクには、ターゲット ページに関連するテキストまたは alt 属性(画像の場合)のいずれかを含める必要があります。
ここで述べているのはサイト内のいずれかのページが陸の孤島になってしまっているとGoogleはそのページを見つけられないため、「必ず内部リンクで繋いで下さいね」ということですね。その際のポイントは
- 飛び先のページに関連するテキストにリンクを設定
- 画像にリンクを設定する場合はalt属性に飛び先のページに関するテキストを設定
のいずれかで設定して下さい。
サイトマップについて
サイト上の重要なページへのリンクを含んだサイトマップ ファイルを用意します。また、そのようなページへのリンクの一覧を人が読める形式で記載したページ(「サイト インデックス」や「サイトマップ ページ」とも呼ばれます)も用意します。
サイトマップは二種類ありますが、ここで述べられているのはHTMLサイトマップのことですね。
主要なページを見つけ易くするサイトマップが置かれていると、ユーザービリティ上も親切ですが、主要なページにクローラーを誘導し易い、所謂「クローラビリティの優れたサイト」になり得るので、是非とも設置するようにして下さい。
ページ内のリンク本数
1 ページのリンクを妥当な数に抑えます(最大で数千個)。
これは特定の1ページからサイト内・外の別ページへのリンクの設置本数はほどほどにということですね。
「Googleがページを検出できるよう~」というこの項に「リンク本数を妥当な数に」と述べられているということは、極端に多数のリンクが置かれていた場合、いくつかのリンクは検出するものの、一定数を超えた場合は無視されてしまう…などということも考えられますので、ここで述べられている1,000本以内に抑えるのが無難かと思います。
因みに参考まで。かつてYahoo!JAPANが独自の検索エンジンだった頃は「100本までしか読まない」という噂がありました。
ページの更新通知
ウェブサーバーが If-Modified-Since HTTP ヘッダーに適切に対応していることを確認します。この機能に対応していると、Google が前回サイトをクロールした後にコンテンツが変更されたかどうかがウェブサーバーから Google に通知されるため、帯域幅や負荷を軽減できます。
これはサーバー側のお話で、「Googleからのお願い」のようなものですね。
2016年3月のNetcraft社の調査報告によると世界中に存在するWebサイトの数は10億サイトを超えるそうです。Googleはそれらの各ページを多数のクローラーを駆使して巡回してはいるものの、その対象は相当なものなので、更新されていないページはクローリングしたくないんですね。なので更新日時が判別できる If-Modified-Since HTTP ヘッダーに適切に対応してもらいたいというお願いをここで述べている訳です。
クロール対象の制御
ウェブサーバー上の robots.txt ファイルを使用して、検索結果ページなどの無限のスペースのクロールを制限することによって、クロールの割り当てを管理します。robots.txt ファイルは常に最新の状態に保ちます。robots.txt ファイルでクロールを管理する方法をご覧ください。robots.txt テスターツールを使用して、robots.txt ファイルの指定内容や構文をテストします。
これは前項に続く内容で、やはりGoogleは無用なクローリングは極力抑えたいと考えているものと思われます。
最近、SEO界隈では「クロール・バジェット」なる言葉を時々耳にしますが、これはサイト毎にクロール対象としてもらえるボリュームが制限されているのではないかという考え(Googleは「クロール・バジェット」なるものはGoogle内には無い言葉だと言っているようですが)で、「クロールの割り当てを管理」と述べていることからも、このような発想があるのだと予想されるので、Googleにクローリングされる必要の無いページについてはrobots.txtを使用するなどして、できるだけクロール対象を制御するようにしましょう。
認識の手助け
Googleがサイト等の各種情報を認識し易くするための方法がコンテンツをGoogleに掲載するページにて案内されています。サイトや情報により適切な方法はまちまちですので、タイプに応じて確認されることをお奨めします。
その中にも記載はありますが、Google Search Consoleを使用してサイトマップ(こちらは前述のHTMLのものではなくXMLサイトマップのことですね)を送信することもGoogleがサイトを認識する手助けになりますので、こちらも積極的に活用するようにしましょう。