Googleからコンテンツを隠す方法

前回はどのようにしてGoogleにWebサイトを表示させるかを説明しましたが、今回は逆にコンテンツを隠す方法を説明します。そもそもコンテンツを隠す時、どのような理由があるのでしょうか。

また、コンテンツを隠すことは、前回の説明したGoogleから検索されなくなることで、Web上から消えるわけではありません。特定のURLを知っている場合や他のサイトにリンクが貼られている場合には隠すことはできません。

Googleからコンテンツを隠す(インデックスされないようにする)理由

プライバシー
個人的なデータ、社内資料、登録や証明が必要なコンテンツ場合

 

複製コンテンツの問題

コンテンツをさまざまな形式で複数バージョン用意している場合(印刷用ページ、PDFバージョン)

 

キーワードの共食い(カニバリゼーション

特定のページにスパイダーがアクセスしないよう防ぐことで、関連性とコンバージョン頻度の最も高いページが検索で上位に入る役に立つ場合。

検索エンジンからコンテンツを隠す方法

方法

robots.txt を使用します。「robots.txt」は、サイトの特定の部分について、検索エンジンによるアクセスとクロールを許可するかどうかを検索エンジンに伝えるファイルです。このファイルは「robots.txt」と名付ける必要があり、サイトのルートディレクトリに配置します。

Google Search Console には使いやすい robots.txt 生成ツールがあるので、検索エンジンによるページのクロールを防止するために robots.txt を作成する際に利用できます。

参照:robots.txt ファイルの基本と使い方

 

問題点

robots.txt は機密資料を保護するための適切で効果的な方法ではありません。robots.txt を使ってクロール対象外のページを正常なクローラに認識させることはできますが、サーバーがリクエストされたページをブラウザに配信するのを防ぐことはできません。あくまでGoogleからインデックスされないようにする為で、URLがインターネット上のどこかに存在する場合や、ブロックしているURLを検索できてしまう悪質な検索エンジンが robots.txt の指示に従わない可能性もあります。

 

対策

このようなケースで、「ページを Google に表示したくないけれど、リンクを知ったユーザーがページにアクセスするのはかまわない」という場合は、noindex タグを使用します。さらに、セキュリティを確保したいなら、パスワード認証方法を使用したり、ページをサイトから完全に削除したりしてください。

まとめ

今回専門的な内容が多かったのですが、Googleに登録することと、同時に登録されないようにする方法もあると知っていただければ幸いです。しかし「登録されない」=「Web上から削除される」わけではありません。削除の際には適切な処理を行い、Googleにも報告するようにしてください。