URL正規化の理由と正規化させる方法やサイトマップの作成について

スポンサーリンク

正規URLを検索エンジンに知らせることは、SEOの面で大切なことと言われています。
WordPressでは「パーマリンク設定」で指定したパーマリンクが正規URLとなるよう、[rel=”canonical”]タグがhead内に入力されるようにディフォルトでなっています。
一方、静的サイトではタグの打ちこみによって正規URLを指定しなければなりません。

正規URLを検索エンジンに知らせる方法として、もうひとつあるのが XML形式のサイトマップです。
[rel=”canonical”]より効果は薄いのですが、重複コンテンツが存在する場合の補完手段としてサイトマップの送付は必ずやっておきましょう。

URL正規化はなぜ必要か?

URLを正規化させるタグ[rel=”canonical”]のサポートが開始されたのは2009年のことです。
2009/07/13付けのGoogleウェブマスター向け公式ブログ【検索結果に優先的に表示させたいページの指定について】では、このタグの有効性について次のようにアナウンスしています。

複数の URL で同一、もしくは同一に近いコンテンツを管理されていて、重複するコンテンツ 関連の問題を抱えるウェブマスターの方々に朗報です。検索結果に優先的に表示させたいバージョンの URL を、検索エンジンに通知する書式がサポートされるようになりました。この書式をご利用いただくことで、検索結果に表示される、ご自身のサイトの URL に関して、これまでよりもコントロールできるようになります。

そしてこのタグによる正規URLの指定は、Googleに対する命令文となるかそれとも参考情報かという疑問にはこのように答えています。

参考情報ですが、重要な参考情報として受け止められます。検索結果に表示する最適なページの判定を行ううえで、他の情報と共に、この canonical 指定の指定も考慮に入れます。

最初の引用文にあるように“重複するコンテンツ”が問題となっている背景を少し掘り下げると、ウェブがより便利になったことによって起こった事という面が見えてきます。

携帯サイトの誕生とECサイトの発展によって生まれた問題

同一のコンテンツを、PC用と携帯サイト用にアドレスを変えて、ウェブが作られるようになったり、同一商品が複数のカテゴリに分類され、属しているカテゴリの数だけURLが生まれる。こんなことによって、まったく同一のコンテンツや、少しだけ違うところがあるけど、ほとんど同じ内容のページが複数作られるようになりました。

ユーザーにとって便利な面と同時に、同じ内容のページがいくつも検索結果に表示されるという、検索エンジンにとっては好ましくない現象が生じるようになったのが、重複するコンテンツ問題なのです。

意図しなくても生まれる重複コンテンツ

重複コンテンツは上に書いたように、サイトを作り出すシステム上の問題もあれば、まったく意図しないで自然に生まれてしまうケースもあります。

http://www.○○○.com/ http://○○○.com/
http://www.○○○.com/index.html http://○○○.com/index.html
https://www.○○○.com/ https://○○○.com/
https://www.○○○.com/index.html https://○○○.com/index.html

上の8種類のURLは、常時SSL化されたサイトのすべて同じページのURLになります。
指定しない限りはどのURLでもこのページは表示されます。

この8種類はWordPressサイトではできないのですが、静的サイトでは簡単に作ることが出来ます。

あるindex.htmlに対して作る内部リンクを相対パスで作ると次の種類があります。

  • href ../
  • href ../index.html

これに[www]の有る無し、[http]と[https]があって、サイトを作る際に内部リンクのルールをきちんと決めておかないと、重複コンテンツが簡単に生まれるわけです。

重複コンテンツの危険性

重複コンテンツはやむを得ずというか、自然にできてしまうものですが、意図的に重複コンテンツを作るケースもあります。
ミラーサイトやサイトの盗用など悪質なケースもあります。

重複コンテンツがあるからといって、検索エンジンからペナルティを受けることはないと言われていますが、意図的に作られた悪質なサイトと自然に出来た重複サイトを正確に見分けることができるかどうか心配な面もあります。

このような理由から、できるだけ重複コンテンツができないように、できる場合には正規URLを検索エンジンに伝える必要性があるわけです。

正規URLの指定方法

静的サイトではページの<head>内の、なるべく最初の方に

<link rel=”canonical” href=”http://○○○.com/△△△/” />
と正規表現にしたいURLのタグを入れます。

WordPressでは、パーマリンクの設定の通りに正規URLは自動的に指定されます。

尚、正規URLはエラー回避の為に“絶対パス”を推奨しています。
参照 ⇒ 正規 URL を使用する【Google Search Console ヘルプ】

[shortlink]の削除

WordPressは正規URLの指定と同様に
<link rel=’shortlink’ href=’http://○○○.com/?p=111′ />

こんなタグが自動で入ります。

これは、例えば「パーマリンク設定」で「数字ベース」にした場合でも、ディフォルトの[?p=111]でページが表示されるようになるタグです。

正規URLを指定していながら、別のURLでもアクセスできるようになっているのはおかしなものです。
次のようなケース以外で[shortlink]が必要ない場合には
functions.phpに下のコードを追記し、[shortlink]タグを削除します。

remove_action('wp_head', 'wp_shortlink_wp_head');

サーバーの移動に伴いデータベースを引越した際に、パーマリンク設定がうまく機能しない場合には[shortlink]があった方がよい

サイトマップの送信

検索エンジンにXML形式のサイトマップを送信します。
サイトマップは、正規URLを検索エンジンに知らせる手段という面では、あまり強い意味は無いと言われていますが、補完する意味合いではあった方がいいわけです。

サイトマップを自作してもいいですし、ツールを使う方法もあります。

私はサイトマップを作成-自動生成ツール「sitemap.xml Editor」を利用させてもらっていますが、ひとつだけ注意点があります。

[同一タイトルURLの除外]を「する」にチェックを入れることを忘れずに。
「しない」にしちゃうと「/」と「/index.html」が重複してしまいます。

コメント