Красносельский
Константин
Константинович

Компьютер и программы

Веб-дизайн

Справочники

Документация по CSS1

Настройка файла .htaccess

Коды ошибки http сервера

Подстановочные символы и регулярные выражения

Спецификация файла robots.txt

SSI – Server Side Includes

Таблица кодировки символов кириллицы

Нестандартные символы в HTML

Вторая таблица символов HTML

MIME Types (типы файлов)

 

Советы начинающим

Как в PHP поместить enum в массив

Советы начинающим Веб-дизайнерам: Что, где и зачем.

Правила плохого тона

WEB-уловки

Камень предкновения: верстка таблицами или блоками?

Рекомендации по разработке веб сайта

 

Анализ WEB-конъюнктуры. Создание лучшего сайта и его раскрутка.

Анализ WEB-конъюнктуры

Предисловие

Приручение поисковых машин

Уровень документа - все гениальное просто

Благоустройство нор для поисковых червей или как водить пауков по нашей паутине

Ускорение индексации сайта

Если гора не идет к Магомету

Индекс цитирования

Что это такое и с чем его едят

Приобретение веса в глазах общественности

Послесловие

Последние замечания по интернет-раскрутке

 

Приложения

А: «Рекомендации лучших пауководов»

Краткий комментарий.

Советы специалистов поисковой системы Rambler.

Использование файлов robots.txt.

Часто задаваемые вопросы.

Советы специалистов поисковой системы Aport.

Регистрация сайта в Апорте.

Советы специалистов поисковой системы Yandex.

Добавление страниц

Индексирование

Положение страницы на выдаче

Поиск со своей страницы

Ответы на часто задаваемые вопросы

 

Б: «1000 сверх-сайтов Рунета»

1000 сверх-сайтов Рунета

 

В: «Сто наиболее популярных поисковых слов»

Сто наиболее популярных поисковых слов

 

Г: «Где это сделать?»

Где это сделать?

 

Д: «Практическое руководство!!!»

Краткий комментарий.

Окна, ссылки и меню.

Ссылки и окна. Внешний вид и внутреннее содержание.

Организация ссылок. Всевозможные оглавления.

Если вам не нравятся фреймы, значит, вы не умеете их готовить.

Меню из выпадающих списков (javascript и CSS).

Многоуровневое раскрывающееся меню (javascript и CSS).

Работа с базами данных.

Обработка баз данных браузером посетителя

Обработка баз данных сервером (PHP)

Взаимодействие с посетителем

Отправка писем с веб-страницы.

Формы

Методы форм.

Создание на сайте PHP голосования.

Регистрация и контроль посетителей (PHP).

Интерактивность материала.

Создание гостевой книги на PHP.

Удаление записей из текстовых баз (PHP).

Заргузка файлов на сервер по HTTP-протоколу (PHP).

Разное.

Псевдослучайные элементы (PHP, javascript).

Точное определение имени и версии браузера с помощью JavaScript, SSI или PHP

Клоакинг и технология «Входных дверей».

Отложенное выполнение и выполнение с заданным интервалом (javascript)

Информация о размере, дате, собственные счетчики и протоколы посещений

 

 

 

Консультации

Экспорт и импорт новостей

PHP chmod – права доступа к файлам

WEB 2.0 – миф, или реальность?

Давно забытый AJAX

Способы хранения веб-страниц: документы FrontPage или базы данных

Как заработать на своем сайте?

FTP клиент, как настроить Total Commander

Знак собаки @ и подавление ошибок в PHP

AJAX

AJAX с точностью до наоборот, или как научить AJAX сохранять историю в браузере

 

Мониторинг веб сайтов и анализ поисковых запросов

Документация по Веб-дизайну

Желающим скачать PHP скрипт или JavaScript

 

Литература и поэзия

Гуманитарные науки

Мастерская

Хронология материалов

Обращение к посетителям

Скачать шрифты

Скачать рефераты

Создание web сайта на заказ

Создание веб сайтов (цены)

Веб-сайты, созданные мной (потенциальным заказчикам)

Полезные ссылки

Об авторе

Статистика сайта

 

Web На сайте

 

 

 

ТаблицейБлоками.

Справочник Веб-дизайнера: Файл robots.txt

Последняя модификация: 10.08.2014 г

Страница загружена с адреса: http://webdesign.site3k.ru/docs/robots_txt.html

Моя студия веб-дизайна

Спецификация robots.txt.

  1. Путь к файлу robots.txt
  2. Спецификация robots.txt
  3. Для чего robots.txt создателю сайта?
  4. META ROBOTS
  5. Запрет индексации фрагмента файла

Путь к файлу robots.txt.

  1. Поскольку для некоторых сетевых операционных систем регистр символов в названии файла имеет значение, наименование файла robots.txt должно состоять из букв нижнего регистра (именно под таким именем он ищется поисковыми машинами). Это правило следует соблюдать, даже если сервер, предоставляющий услуги хостинга нормально переводит регистр символов и понимает что «robots.txt» и «ROBOTS.TXT» одно и тоже.
  2. Файл robots.txt должен находиться в корневом каталоге сервера, и определять, какие каталоги не допускаются к индексации (но это касается только администраторов сервера и, не касается создателей сайтов).
  3. Файл robots.txt должен находиться в корневом каталоге сайта (это уже на попечении владельцев сайта), например, если сайт называется webdesign.site3k.ru, то файл robots.txt должен иметь адрес HTTP://webdesign.site3k.ru/robots.txt. Файлы robots.txt, вложенные во внутренние каталоги сайта, поисковыми машинами игнорируются.

Спецификация robots.txt.

Поисковые машины поддерживают всего три директивы файла robots.txt:

# означает начало комментария. Вся строка, следующая за этим знаком, игнорируется. Данная директива позволяет разработчику оставить себе памятку о том, с какой целью он указал ту, или другую, директиву.

User-agent: указывает робота, которому адресован приведенный в следующих за строкой User-agent блок инструкций. Например, робот поисковой системы Рамблер называется StackRambler и, строка для его указания выглядит как:

User-agent: StackRambler

В одной директиве User-agent можно указать только одного робота (на самом деле, спецификации, с момента создания изменились и, в одной директиве, через пробел можно указывать любое количество роботов, но наши поисковые системы и многие западные, проигнорировали такое нововведение в спецификации и не понимают строк User-agent указывающих на нескольких роботов) и, для указания нескольких роботов, применяется несколько директив User-agent. Однако допускается применение универсального имени * означающего всех роботов, кроме тех, что указаны в других строках. Например:

User-agent: *

Если указание одного и того же робота повторяется в нескольких строках (по ошибке), роботами учитывается только первое, потому что, найдя первое упоминание о себе, роботы прекращают поиск директивы User-agent (спецификация, в таком случае, разрешает роботам произвольно выбирать используемый блок).

disallow: указывает имя или часть имени не индексируемых файлов. Так же, как и директива User-agent, директива disallow: допускает не более одного параметра, поэтому для указания нескольких файлов, требуется употребление нескольких строк disallow. Директивы disallow должны идти в следующей строке после строки User-agent. Пустая строка является окончанием блока параметров для одного робота и началом блока параметров для следующего. Дойдя до пустой строки своего блока, роботы прекращают чтение параметров и начинают индексацию файлов. Поэтому пустые строки недопустимы как внутри блока параметров, так и между этим блоком и предшествующей им строкой с директивой User-agent. Например, блок параметров для Рамблера должен выглядеть так:

user-agent: StackRambler
disallow: /alt
disallow: /mac
disallow: /koi
 

Этот блок запретит индексацию файлов путь, к которым начинается с alt, mac и koi. Если же между disallow: /mac и disallow: /koi вставить пустую строку, файлы, имя которых начинается с koi, будут проиндексированы.

Директива disallow не признает шаблонов типа *.CGI, поэтому, чтобы облегчить себе жизнь и не повторять строку тысячи раз, следует собрать все неиндексируемые файлы в один каталог (или несколько каталогов, если так будет удобней) и запретить индексацию всего этого каталога.

Параметр директивы disallow должен указывать относительный путь от корня сайта. Попытка указать абсолютный путь вроде HTTP://MyCite.Host.ru/files.html приведет к результату

disallow: /HTTP://MyCite.Host.ru/HTTP://MyCite.Host.ru/files.html

Этот результат получается в силу того, что путь к корневому каталогу сайта роботами учитывается автоматически (иначе можно было бы запретить индексацию файлов на чужих сайтах).

Корневой каталог сайта обозначается слешем (/). Если по какой-то причине не требуется индексация всего сайта, директива disallow должна указывать на корень:

disallow: /

Директива disallow без слеша ничего не запрещает.

Если не требуется индексация файлов, имя которых начинается с некоторой последовательности символов, в директиве disallow указывается слеш и требуемая последовательность. Например:

disallow: /dir

Запретит индексацию файлов «/dir.html», «/dir/index.html», «/directory.html».

Если требуется указать не начало имени файла или пути к нему, а имя целиком, это имя следует закончить слешем. Например:

disallow: /dir/
disallow: /dir.html/
 

Чувствительность к регистру в имени файлов зависит от сервера предоставляющего хостинг. Если сервер регистрочувствительный, то

disallow: /dir.html/

Запретит индексацию файла dir.html, но не файла dir.HTML.

Других директив, robots.txt содержать не может. В частности, нет директив разрешающих индексацию. Иначе владелец сайта мог бы разрешить индексацию файлов, запрещенных к индексации владельцем сервера.

Трудно представить ситуацию, в которой содержателю сайта пришлось бы давать различные инструкции для разных роботов. Поэтому, с учетом изложенного, стандартный файл robots.txt выглядит примерно так:

User-Agent: *
Disallow: /cgi-bin/
Disallow: /links/
 

Где cgi-bin – папка с cgi-скриптами, а links – папка с различными ссылками. Если же требуется задание различных параметров индексации различным роботам, перед началом блока параметров для следующего робота обязательно наличие пустой строки, определяющей завершение предыдущего блока. Например:

User-Agent: *
Disallow: /cgi-bin/
Disallow: /links/
 
User-Agent: Lycos
Disallow: /cgi-bin/
 

Имена некоторых роботов: Yandex, StackRambler, Aport, Googlebot, Lycos

Для чего robots.txt создателю сайта?

На первый взгляд может показаться что, возня с файлом robots.txt для создателя сайта не имеет смысла, так как наиболее популярные поисковые машины все равно его проиндексируют. Но это только на первый взгляд. Многие файлы, например, файлы, хранящие скрипты, не требуют индексации и, их индексацию лучше запретить, уменьшив, таким образом, время, затрачиваемое роботами на индексацию, и создаваемый ими трафик на сервере, предоставившем место для сайта. В результате, у посетителей увеличится скорость доступа к ресурсам сайта, и они вернутся к нему с большим удовольствием. Если же скорость будет очень низкая, то они вернутся, только если им больше некуда будет деваться.

Кто имеет настолько уникальное и настолько ценное содержание сайта, что посетитель будет пробиваться к нему несмотря не на какие преграды?

К тому же, сайты, подолгу имеющие плохой доступ, исключаются из каталогов-рубрикаторов, вроде каталога Яндекса. А это рушит многие надежды владельцев сайта.

Конечно, десяток файлов одного сайтодержателя не изменят погоды на фоне миллиона других файлов, закачиваемых поисковым роботом, но если об исключении из индексации лишних файлов позаботятся все пользователи хостинга на данном сервере, результат будет ощутимым. Настолько ощутимым, что администрация некоторых серверов предоставляющих хостинг (например, h11.ru) запрещает владельцам сайта помещать скрипты иначе как в каталог cgi-bin и редактировать файл robots.txt, а лиц, уличенных в нарушении этого запрета, лишает права хостинга. Поэтому, файлом robots.txt следует обзавестись и указать в нем файлы и каталоги, не требующие индексации. Не стоит полагаться на мощность серверов – любую, даже самую продвинутую, систему можно загадить.

В повышении скорости доступа к файлам сервера каждый должен сделать все от него зависящее, не оглядываясь на остальных. Другие, возможно уже сделали это, или сделают, когда до них дойдет очевидная польза данного действия.

Вторая, гораздо более значимая для владельца сайта причина создать файл robots.txt заключается в механизме, по которому роботы обрабатывают сайты:

Для того чтобы робот начал индексировать страницу, он должен знать о ее существовании. Информацию о существовании страницы, обычно робот получает из ссылок на других страницах. Получив ссылку на какую-то страницу, робот закачивает ее, индексирует, анализирует ссылки и закачивает указанные в них страницы, с тем, чтобы без устали повторять одни и те же операции – закачивание, индексация, анализ ссылок. При обнаружении ссылок на страницы другого сайта, робот начинает закачивать страницы и от туда, а там новые ссылки, некоторые из которых могут вести к следующему сайту (именно так зачастую роботы обнаруживают новые сайты). При этом существует вероятность полного переключения робота на другие сайты, и Ваши страницы останутся недоиндексированными (конечно, не навсегда, но, возможно, надолго). Вот тут-то, директива Disallow, запрещающая индексацию страниц с многочисленными ссылками на другие сайты, была бы очень кстати.

META ROBOTS

На случай, если пользователь не имеет права корректировать файл robots.txt, да и просто, на всякий случай (перемещение файла из каталога в каталог, с забыванием отметить это в robots.txt, размещение файла на другом, возможно чужом, сайте и т. д.), в HTML-файлы не подлежащие индексации стоит внести теги «META» с именем «ROBOTS», где указать допустимые параметры работы с файлом.

NOINDEX - запрещает индексирование документа;

NOFOLLOW - запрещает проход по ссылкам, имеющимся в документе;

INDEX - разрешает индексирование документа;

FOLLOW - разрешает проход по ссылкам, имеющимся в документе.

ALL – разрешает как индексирование документа, так и проход по ссылкам (равносильно INDEX, FOLLOW)

NONE – запрещает индексирование и проход по ссылкам (равносильно NOINDEX, NOFOLLOW)

Регистр значения не имеет.

Если META name="ROBOTS" в документе не указан и в файле robots.txt не запрещена его индексация, файл индексируется, и проход по ссылкам происходит, что равносильно

<META name="ROBOTS" content="index, follow">

или

<META name="ROBOTS" content="all">

Если же такое положение вещей автора страницы не устраивает, ему следует включить META name="ROBOTS" между тегами «Head» и «/Head» страницы, указав, какая обработка ему нужна. Например:

<META name="ROBOTS" content="index, nofollow">

Индексировать все, по ссылкам не переходить.

Строка

<META name="ROBOTS" content="none">

очень близка по смыслу запрету индексации в файле robots.txt, но, все же, не совсем то же самое. Обнаружив запрет на индексацию файла в robots.txt, поисковая машина не станет его скачивать и, тем самым, немного облегчит доступ посетителей. Если же запрет индексации находится на самой странице, то машина сначала ее скачает, наработав трафик, а только затем поймет что, сделала это понапрасну. Поэтому, запрет на индексацию страниц следует помещать в саму страницу не вместо директив robots.txt, а придачу к ним.

При обнаружении в теге противоречивых инструкций (включенных по ошибке, принимаются разрешающие). Например:

<META name="ROBOTS" content="index, nofollow, follow">

Равносильно

<META name="ROBOTS" content="index, follow">

Запрет индексации фрагмента файла

Во многих случаях HTML-документы содержат как ссылки на чужие ресурсы, так и ссылки на свои. Переход роботов на свои ресурсы, обычно, желателен, а на чужие, зачастую, нет. META name="ROBOTS" в таких ситуациях не пригоден, поскольку управляет переходом по всем ссылкам файла. Теги <NOINDEX> и </NOINDEX>, вставляемые вовнутрь документа дают более гибкий механизм управления роботами, запрещая индексацию части документа заключенной между ними. Однако не стоит им доверять полностью. Это нестандартный способ управления роботами, поддерживаемый не всем поисковыми системами. Доподлинно известно что, их учитывают Рамблер и Яндекс.

 

Комментарии к странице (всего 2)

 

 

 


На главную страницу сайта