Примеры файлов robots.txt для вашего сайта

Файл robots.txt, хранящийся в корневом каталоге вашего веб-сайта, сообщит веб-роботам, таким как поисковые машины, какие каталоги и файлы им разрешено сканировать. Файл robots.txt легко использовать, но есть некоторые вещи, которые вы должны помнить:

  1. Веб-роботы Blackhat будут игнорировать ваш файл robots.txt. Наиболее распространенными типами являются вредоносные роботы и роботы, которые ищут адреса электронной почты для сбора.
  2. Некоторые новые программисты пишут роботов, которые игнорируют файл robots.txt. Обычно это делается по ошибке.
  3. Любой может увидеть ваш файл robots.txt. Они всегда называются robots.txt и всегда хранятся в корне сайта.
  4. Наконец, если кто-то ссылается на файл или каталог, который исключен вашим файлом robots.txt со страницы, которая не исключена их файлом robots.txt, поисковые системы могут его найти в любом случае.

Не используйте файлы robots.txt, чтобы скрыть что-либо важное. Вместо этого вы должны поместить важную информацию в надежные пароли или оставить ее вне Интернета полностью.

Как использовать эти образцы файлов

Скопируйте текст из примера, который ближе всего к тому, что вы хотите сделать, и вставьте его в файл robots.txt. Измените имена роботов, каталогов и файлов в соответствии с предпочитаемой конфигурацией.

Два основных файла Robots.txt

 User-agent: * 
Disallow:/

В этом файле говорится, что любой робот ( Пользовательский агент: * ), который обращается к нему, должен игнорировать каждую страницу сайта ( Disallow:/).

 User-agent: * 
Disallow:

В этом файле говорится, что любой робот ( Пользователь-агент: * ), который обращается к нему, может просматривать каждую страницу на сайте ( Запретить: ).

Вы также можете сделать это, оставив файл robots.txt пустым или вообще не указав его на своем сайте.

Защита определенных каталогов от роботов

 Пользовательский агент: * 
Disallow:/cgi-bin/
Disallow:/temp/

В этом файле говорится, что любой робот ( Пользовательский агент: * ), который обращается к нему, должен игнорировать каталоги/cgi-bin/и/temp/( Disallow:/cgi-bin/Disallow:/темп/).

Защитите определенные страницы от роботов

 Пользовательский агент: * 
Disallow: /jenns-stuff.htm
Disallow: /private.php

В этом файле говорится, что любой робот ( Пользовательский агент: * ), который обращается к нему, должен игнорировать файлы /jenns-stuff.htm и /private.php ( Disallow: /jenns-stuff.htm Disallow: /private.php ).

Запретить определенному роботу доступ к вашему сайту

 Пользовательский агент: Lycos/x.x 
Disallow:/

В этом файле говорится, что бот Lycos ( Пользователь-агент: Lycos/x.x ) не имеет доступа ни к чему на сайте ( Disallow:/).

Разрешить только один определенный доступ робота

 Пользовательский агент: * 
Запретить:/
Пользовательский агент: Googlebot
Запретить:

Этот файл сначала запрещает всем роботам, как мы это делали выше, а затем явно позволяет Googlebot ( Пользователь-агент: Googlebot ) иметь доступ ко всему ( Disallow: ).

Объедините несколько строк, чтобы получить именно те исключения, которые вы хотите

Хотя лучше использовать очень инклюзивную строку User-agent, например User-agent: *, вы можете быть настолько конкретны, насколько захотите. Помните, что роботы читают файл по порядку. Таким образом, если в первых строках указано, что все роботы заблокированы от всего, а затем в файле указано, что всем роботам разрешен доступ ко всему, то роботы будут иметь доступ ко всему.

Если вы не уверены, правильно ли вы написали файл robots.txt, вы можете использовать Инструменты Google для веб-мастеров, чтобы проверить файл robots.txt или написать новый.

Оцените статью
Solutics.ru
Добавить комментарий