10.04.2010
 


Сайт возрожден. Общайтесь.

Профиль
Информация Управление
Здравствуйте, уважаемый посетитель. К сожалению, Вы не были распознаны форумом, как зарегистрированный пользователь. Для полноценного использования возможностей нашего форума вам необходимо зарегистрироваться. Если вы уже зарегистрированы на форуме, то вам необходимо пройти авторизацию, используя Ваш логин и пароль. Зарегистрированные пользователи получают возможность просматривать закрытые разделы форума, а также возможность общения на нашем форуме.

  • Страница 1 из 1
  • 1
Форум портала "Все для ICQ" » Инфо веб мастеру » Раскрутка сайтов » Что такое robots.txt и для чего он нужен
Что такое robots.txt и для чего он нужен
PekineZДата: Суббота, 10.04.2010, 13:47 | Сообщение # 1
Сержант
У вас 21 Баллов
( Обмен баллов )
Репутация: 2
Награды: 0
Ушел куда-то мля
Файл robots.txt размещается в корневой директории сайта и описывает исключения для поисковых ботов. Придерживающийся стандартов бот проверяет сначала url "/robots.txt", если файл существует, то бот анализирует его содержимое на предмет наличия запретов к посещению определённых частей сайта. Имя файла не должно содержать заглавных букв. Записи в файле разделяются одной или несколькими пустыми строками. Комментарии в файле robots.txt начинаются знаком ”#” и заканчиваются окончанием строки (строки, содержащие только комментарии игнорируются ботами и не являются разделителями записей).

User-agent

Имя бота, к которому применяются правила исключений на сайте. Можно прописать несколько строк с User-agent, в этом случае правила, описанные в данной записи будут применяться указанными ботами. Для описывания правил ботам, для которых отдельная запись не составлена применяют следующий параметр: «*» (в файле robots.txt может быть только одна запись User-agent: *).

Disallow

В данном поле прописывается полный или частичный путь к месту на сайте, посещение которого запрещено для бота. В каждой записи должно присутствовать как минимум одно поле Disallow. Пустое поле Disallow подразумевает разрешение боту посещать все директории и файлы сайта. Не допускается использование в данном поле регулярных выражений и символов подстановки.
Примеры для http://site.ru/
(Показывает как можно сочетать директивы в файле robots.txt но не несущий смысловой нагрузки)

User-agent: Yandex
Disallow: /test/
Disallow: /print.html
# Запрещает ботам Яндекса посещать папку http://site.ru/test/
# и файл http://site.ru/print.html

User-agent: Aport
User-agent: Googlebot
Disallow: /temp/img/
# Запрещает посещение ботами Google и Апорт http://site.ru/temp/img/

User-agent: StackRambler
Disallow:
# Для бота поисковой системы Рамблер разрешено посещение всех
# страниц и папок сайта

User-Agent: *
Disallow: /lesson.php?action=test
# Запрещает посещение всеми ботами, для которых не сделана
#отдельная запись,
# динамических страниц, начинающихся с http://site.ru/lesson.php?action=test
# например: http://site.ru/lesson.php?action=test&id=13
# чувствительно к порядку переменных в ссылке

Некоторые поисковые системы поддерживают дополнительные поля в файле robots.txt. Яндексом поддерживается директива Host, служащая для назначения основного зеркала:

User-agent: Yandex
Disallow: /test/
Host: site.ru
# разрешено посещение всех страниц и папок на сайте, кроме http://site.ru/test/
# основным зеркалом назначено http://site.ru/

User-agent: *
Disallow:
# всем ботам, кроме бота Яндекса, разрешено посещение всех страниц и
# папок на сайте

Запретить сайт к индексации полностью можно с помощью такого файла robots.txt

User-agent: *
Disallow: /

Наиболее актуальные для Рунета, на мой взгляд, боты:

(думаю, даже расшифровывать не требуется)
Yandex
Googlebot
StackRambler
Aport

Рекомендации по запрету к индексации

Что не следует указывать в файле robots.txt:

- папки с административными файлами
- файлы, о которых посторонним вообще знать не стоит
Прописывание путей к данным частям сайта может породить нездоровый интерес и попытки совершения зловредных действий, рады которым Вы уж точно не будете. К тому же есть и альтернативные способы запрета посещения и индексации ботами страниц.

Стоит запретить к индексации:

- документы "для печати"
- папки со скриптами
- папки с картинками (если у Вас не предвидится целевой аудитории с поиска по картинкам)
- сервисные страницы, такие как, например, страница с формой отправки письма администрации, схема проезда

Ошибки, допускаемые при составлении robots.txt

Как не надо делать:
Имя файла содержит заглавные буквы – Robots.txt или ROBOTS.TXT
Файл robots.txt размещается не в корневой директории
Пустая строка после поля User-agent
Отсутствие директивы Disallow
Использование в поле Disallow символов подстановки или регулярных выражений, например: "?", "*"
Больше одной строки "Disallow: *"

Форум портала "Все для ICQ" » Инфо веб мастеру » Раскрутка сайтов » Что такое robots.txt и для чего он нужен
  • Страница 1 из 1
  • 1
Поиск:
Статистика Форума
Последние темы Читаемые темы Лучшие пользователи Новые пользователи

Оптимизация (SEO) и раскрутка сайта

(2)

Реклама на сайте

(1)

icqvipgold. Карты и еще пару новейших сервисов от icqvipgold

(9)

Ваша любимая онлайн игра)))

(4)

Продажа асек

(2)

Баги

(9)

Покупка баллов

(0)

Skype 4.0.0.226

(2)

Конкурс на МОДЕМ

(1)

Для чего сайт создан

(1)

icqvipgold. Карты и еще пару новейших сервисов от icqvipgold

(9)

Баги

(9)

Аукцион на восьмизнак

(5)

В Москве в метро прогремели два взрыва, есть жертвы

(5)

Возрождение

(5)

Общение

(4)

Сounter strike source

(4)

Ваша любимая онлайн игра)))

(4)

Авиа катастрофа под Польшей

(4)

Конкурс на ICQ уины

(4)

  • Бетмен
  • En_com
  • Stargate-sg-1
  • PekineZ
  • Sanek94
  • Small-Games
  • Tarakan))
  • Сергiй
  • кирик
  • nVans
  • diplomnhelp2000
  • alitka984
  • Каптёрка
  • dafffka
  • CHS8
  • jdc
  • Telega
  • Сергiй
  • Punk29
  • кирик

  • Дизайн и разработка сайта Игорь Фокеев (2010 г.)
    Основной модератор En_com .
    При копировании любых материалов с сайта, ссылка на источник обязательна!