Мы говорили об этом в 2009-м, и говорим об этом сейчас: удивительно, но до сих пор есть люди, которые используют для защиты своего сайта от индексации в Google или Bing только файл robots.txt. И в итоге их сайт все равно попадает в выдачу поисковиков. Знаете, почему это нас удивляет? Потому что robots.txt вообще не защищает от попадания в выдачу, хотя и препятствует индексации. Давайте в я объясню вам, как это работает.
Есть разница между индексацией и попаданием в поиск Google
Перед тем как начать объяснение, необходимо разъяснить некоторые термины:
- Индексация: процесс загрузки сайта или содержимого страницы на сервер поисковика, что тем самым добавляет его в «индекс».
- Листинг/Ранжирование: демонстрация сайта в результатах поисковой выдачи
Итак, пока процесс идет от индексации к ранжированию, вы хотите, чтобы сайт не индексировался и в результате не попал в листинг. Если ссылка указывает на страницу, домен или что-то еще, поисковик Google идет по ссылке. Если файл robots.txt, размещенный на этом домене, препятствует индексированию этой страницы в поисковике, поисковые механизмы по-прежнему показывают ссылку в результатах выдачи, если из других переменных получают информацию о том, что ссылка релевантна.
Раньше такими переменными мог быть публичный каталог сайтов DMOZ или директория Yahoo, а сейчас я могу представить, например, что Google использует данные из своего раздела My Business, или старые данные по этому проекту. Ведь существует много сайтов, которые содержат информацию по вашему ресурсу.
Если это объяснение кажется вам недостаточным, посмотрите это видео-разъяснение Мэтта Каттса от 2009 года.
Если у вас есть причины запретить индексирование вашего сайта, добавьте этот запрос на страницу, которую хотите закрыть, как это рекомендует делать Мэтт. Это все еще работающий способ. Но не забудьте, что вам надо уведомить Google о наличии мета-тега robots.
Итак, если вы хотите эффективно спрятать страницы от поисковых роботов, вам надо, чтобы они проиндексировали эти страницы. Даже если это звучит противоречиво. И есть два способа сделать это.
Запретите ранжирование страниц добавлением специального мета-тэга robots.txt
Первая возможность запретить ранжирование ваших страниц — использовать мета-тэг robots. У нас есть полный самоучитель по этому мета-тэгу, но если говорить в общем, вам потребуется добавить на страницу вот это:
<meta name="robots" content="noindex,nofollow">
Если вы пользуетесь WordPress-плагином Yoast SEO, добавить код будет очень просто, его не придется вписывать вручную. Узнайте, как добавить тэг noindex с помощью плагина Yoast SEO.
Но сложность с тэгом вроде этого состоит в том, что вам надо добавить его на каждую страницу. Так что есть еще один способ запретить ранжирование.
Добавьте тэг X-Robots в шапку сайта (хедер)
Чтобы процесс добавления тэга robots на каждую страницу сайта был проще, стоит использовать HTTP-заголовок X-Robots-Tag. Он позволит вам прописать HTTP-заголовок, называемый X-Robots-Tag, и установить нужное значение мета-тэга. Здорово здесь то, что эта процедура отразится сразу на всем сайте. Если ваш сайт работает на сервере Apache, и модуль mod_headers доступен (как правило, это именно так), добавьте следующую строку в файл htaccess:
Header set X-Robots-Tag "noindex, nofollow"
И в результате ваш сайт будет проиндексирован, но не появится в результатах поисковой выдачи.
Затем избавьтесь от файла robots.txt, добавив в него команду Disallow: Используйте вместо него тэг X-Robots-Tag или мета-тэг robots!