Как закрыть сайт от индексации в поисковых системах? Работа с файлом robots.txt

Поисковым роботам закрывают доступ к ресурсам, которые находятся в разработке или процессе редизайна. Запрет на индексацию накладывают также на сайты, где вебмастера тестируют доработки и проводят эксперименты. Из поиска стоит убрать служебные разделы блога, страницы с личными кабинетами, неактуальные данные, версии для печати, страницы различных фильтраций. Чтобы уменьшить нагрузку на сервер и ускорить индексацию, рекомендуем закрыть от поисковых ботов скрипты информеров и онлайн-консультантов, pop-up-окна, баннеры и тяжелые файлы, например, фотографии.

В статье расскажем, как закрыть от индексации сайт целиком и его отдельные элементы с помощью файла robots.txt.

Закрываем сайт

Создайте файл robots.txt и загрузите его в корневую папку сайта. Включите в файл строчку вида:

User-agent: *

Disallow: /

Так вы наложите вето на индексацию сайта всем поисковикам без исключения.

Если вы хотите закрыть сайт только от Яндекса, строчка будет выглядеть так:

User-agent: Yandex

Disallow: /

Аналогичным образом, подставляя вместо Yandex имена других поисковых ботов, вы можете запретить индексацию и для них:

Googlebot. Из имени видно, что этот робот принадлежит системе Google.

Slurp. Индексирует сайты в системе Yahoo!.

MSNBot. Работает в поисковике Bing.

SputnikBot. Поисковый бот системы «Спутник» .

Закрываем папку и файлы

Чтобы закрыть конкретную папку, пропишите ее название в строке, которая запрещает индексацию. Например, вы хотите спрятать от поисковиков папку «papka1». Пропишите в файле robots.txt:

User-agent: *

Disallow: /papka1/

В этом случае она будет недоступна для поисковых ботов вместе со всеми файлами, которые в нее входят.

Если вы хотите один из файлов в закрытой папке сделать открытым для индексации, используйте одновременно две директивы — Allow (разрешить) и Disallow (запретить):

User-agent: *

Allow: /papka1/file1.php

Disallow: /papka1/

Закрываем картинки

Если вы хотите закрыть все картинки из конкретной папки, в robots.txt пропишите директиву Disallow для этой папки, например:

User-agent: *

Disallow: /imgpapka/

Если вам нужно закрыть только одну картинку, укажите путь к ней:

User-Agent: *

Disallow: /img/pixel23.gif

Для запрещения картинок определенного формата используйте строчки:

User-Agent: *

Disallow: *.jpg

В зависимости от задачи вместо *.jpg можно указать *.png или *.gif.

Закрываем поддомен

Как правило, файл robots.txt есть у каждого поддомена в его корневой папке. Если файла нет, создайте его. Далее выполните процедуру таким же образом, как это описано для сайта.

Если вы используете Content Distribution Network (CDN), то дубль на поддомене может ухудшить результаты по SEO. Есть два варианта решения проблемы.

Первый — создать на поддомене с CDN отдельный файл robots.txt, в котором прописать запрет на индексацию. Однако в этом случае пострадают поведенческие факторы. Поисковая система не будет учитывать посетителей сайта, если они посещают страницы, размещенные на поддомене.

Второй — выполнить настройку атрибута rel="canonical" тега <link> с отсылкой к основному домену. В этом случае данные о поведенческих факторах на сайте и поддомене будут суммироваться.

Закрываем сайт или страницу мета-тегом «robots»

Поисковые боты с большей вероятностью обойдут ваш сайт стороной, если вы запретите индексацию путем использования тега robots. Его прописывают в начале кода между тегами <head> и </head>.

Запись для всех роботов:

<meta name="robots" content="noindex, nofollow"/>

Или:

<meta name="robots" content="none"/>

Для конкретного робота robots заменяется на имя робота, например:

<meta name="yandex" content="noindex, nofollow"/>

Другие директивы в robots.txt для робота Яндекс

Вы можете использовать дополнительные параметры для бота поисковой системы Яндекс:

  • Установить минимальный промежуток времени между концом загрузки одной страницы и началом загрузки следующей. Это позволяет снизить нагрузку на сервер сайта. Например:

    Crawl-delay: 0.3
    где 0,3 — время в секундах.
  • Отказаться от многократной перезагрузки дублирующихся данных для повышения эффективности обхода сайта. Рекомендовано использовать в том случае, если страницы блога содержат ref-ссылки, идентификаторы сессий, UTM-метки или другие GET-параметры. Записывается в виде:

    Clean-param: utm/catalog/get_book.p1
  • Подсказать поисковым роботам, какие страницы сайта нужно проиндексировать. Запись выглядит следующим образом:

    Sitemap: https://site.ru/sitemap.xml
2 Апреля 2019

Другие посты

Микроразметка FAQ. Как влияет на сайт 18.03.2020

Ее цель — помочь роботам быстрее находить и правильно структурировать данные на страницах сайтов

Читать дальше
Исследование факторов ранжирования Google 24.10.2019

Специалисты считают, что в топе поисковой выдачи будет появляться все больше сервисов, принадлежащих Google, и это ужесточит конкуренцию

Читать дальше
Политика конфиденциальности. Нужна ли на сайте? 04.09.2019

Отсутствие политики конфиденциальности грозит штрафами до 75 тысяч рублей. Если вы оперируете персональными данными, такой документ обязательно должен быть на вашем сайте.

Читать дальше

Расскажите
о вашем проекте: