サーバー上のPDFファイルを検索結果に表示させない方法

google検索 Web制作

PDFファイルは検索エンジンに認識される?

基本的にテキストコンテンツであれば、言語を問わずさまざまな文字エンコードのPDFファイルからインデックス登録することができます。テキストが画像として埋め込まれている場合などはOCRアルゴリズムによる画像処理でテキストを抽出することもあるようです。目安としては、テキストをPDFドキュメントからコピーして標準のテキストドキュメントに貼り付けられる場合は、インデックス登録が可能なようです。

PDFを検索結果に表示させない、検索結果から削除するには

PDF文書内に検索されたくない内容が記載されている場合は、検索エンジンにインデックスされないよう対策する必要があります。
簡単な方法としては、PDF文書のパスワードで保護や暗号化などでクローリングを回避することができますが、ユーザライクな方法ではないのであまり現実的ではありません。

PDFファイルのクローリングは.htaccessで制御することができますので、X-Robots-Tagという記述を用いてクローリングの回避を行います。

サイト内にあるすべてのPDFドキュメントを検索結果に表示させたくない場合

<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex"
</Files>

「ファイル名.pdf」を検索結果に表示させたくない場合

<Files ファイル名.pdf>
Header set X-Robots-Tag "noindex"
</Files>

「ファイル名.pdf」のクロールとインデックスを、2023年4月1日0時以降に終了させたい場合

<Files ファイル名.pdf>
Header set X-Robots-Tag "unavailable_after: 1-Apr-2023 00:00:00 JST"
</Files>

基本的にはHTMLのヘッダーに記述するmetaタグやrobot.txtの記述方法(と概念)とほぼ同じです。PDFの場合はmetaタグを埋め込むことができないので X-Robots-Tagを.htaccessに記述することで検索エンジンのクローラーを制御することができます。

既にインデックスされてしまっているPDFファイルを検索結果から削除したい場合もX-Robots-Tagで指定すれば認識してもらえます。おそらく一定の時間はかかると思いますので、急ぐ場合はSearchConsoleのインデックス削除ツールも併せて使用することをおすすめします。

タイトルとURLをコピーしました