Создание лучшего сайта и его раскрутка: Индексирование документов

Последняя модификация: 10.08.2014 г

Страница загружена с адреса: http://webdesign.site3k.ru/conjuncture/append/a/yandex2.html

Советы специалистов поисковой системы Яндекс

Индексирование
Индексирование документов
Динамические сайты

Индексирование

Когда Яндекс обнаруживает новую или измененную страницу, он ее индексирует. В процессе этого страница разбивается на элементы (текст, заголовки, подписи к картинкам, ссылки и так далее), содержание которых заносится в индекс. При этом учитываются позиции слов, то есть их положение в документе или его элементе. Сам документ в базе не хранится.

Яндекс создает очень компактный индекс.

Индексирование документов

Правила индексации в машине Яндекс

Яндекс индексирует страницы по их истинным адресам. Это значит, что, если на странице стоит redirect, робот воспримет его как ссылку на новый адрес и внесет ее в очередь на индексирование (если она удовлетворяет описанным выше правилам). То же самое произойдет, если в одном из фреймов будет стоять ссылка на другой сервер. В частности, если эта ссылка находится вне доменов, разрешенных по умолчанию, страница НЕ будет проиндексирована. Робот Яндекс хранит дату последнего обхода каждой страницы, дату ее изменения (присланную Web-сервером) и дату внесения последних изменений в базу поиска (дату индексации). Он оптимизирует обход Сети таким образом, чтобы чаще посещать наиболее изменяемые сервера. Робот Яндекс работает автоматически и обычно переиндексация происходит раз в две-три недели.

Изменения уже проиндексированных страниц робот Яндекс отслеживает самостоятельно при следующем заходе на сайт. У робота свой график работы и изменить его, к сожалению, невозможно, в том числе применяя такие тэги, как

<META NAME="REVISIT-AFTER" CONTENT=".. DAYS">.

Яндекс индексирует документ полностью: текст, заголовок, подписи к картинкам, описание (description), ключевые слова и некоторую другую информацию.

Как запретить индексацию определенных страниц?

Разрешения и запрещения на индексацию берутся всеми поисковыми системами из файла robots.txt, находящегося в корневом каталоге сервера. Запрет на индексацию ряда страниц может появиться, например, из соображений секретности или из желания не индексировать одинаковые документы в разных кодировках. Чем меньше ваш сервер, тем быстрее робот его обойдет. Поэтому запретите в файле robots.txt все документы, которые не имеет смысла индексировать (например, файлы статистики или списки файлов в директориях). Обратите особое внимание на CGI или ISAPI скрипты - наш робот индексирует их наравне с другими документами.

В простейшем виде (разрешено все, кроме директории скриптов) файл robots.txt выглядит следующим образом:

User-Agent: *

Disallow: /cgi-bin/

Детальное описание спецификации файла можно прочитать на странице: «Стандарт исключений для роботов» (http://www.citforum.ru/internet/search/rbtspec.shtml) (в этой книге он описан несколько раз: в рекомендациях Рамблера и «Благоустройстве нор для поисковых червей», плюс, в самих рекомендациях Яндекса. Кроме того, он описан в Индексирование документов Поиск робот индекс цитирования релевантность сайта Спецификации файла robots.txt).

При написании robots.txt обратите внимание на следующие часто встречающиеся ошибки:

Строка с полем User-Agent является обязательной и должна предшествовать строкам с полем Disallow. Так, приведенный ниже файл robots.txt не запрещает ничего:

Disallow: /cgi-bin

Disallow: /forum

Пустые строки в файле robots.txt являются значимыми, они разделяют записи, относящиеся к разным роботам. Например, в следующем фрагменте файла robots.txt строка “Disallow: /forum” игнорируется, поскольку перед ней нет строки с полем User-Agent.

User-Agent: *

Disallow: /cgi-bin

Disallow: /forum

Строка с полем Disallow может запретить индексирование документов только с одним префиксом. Для запрета нескольких префиксов нужно написать несколько строк. Например, нижеприведенный файл запрещает индексирование документов, начинающихся с “/cgi-bin /forum”, которых, скорее всего, не существует (а не документов с префиксами “/cgi-bin” и “/forum”).

User-Agent: *

Disallow: /cgi-bin /forum

В строках с полем Disallow записываются не абсолютные, а относительные префиксы. То есть файл:

User-Agent: *

Disallow: www.myhost.ru/cgi-bin

запрещает, например, индексирование документа

http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi,

но НЕ запрещает индексирование документа

http://www.myhost.ru/cgi-bin/counter.cgi.

В строках с полем Disallow указываются именно префиксы, а не что-нибудь еще. Так, файл:

User-Agent: *

Disallow: *

запрещает индексирование документов, начинающихся с символа «*» (которых в природе не существует), и сильно отличается от файла:

User-Agent: *

Disallow: /

который запрещает индексирование всего сайта.

Если вы не можете создать/изменить файл robots.txt, то еще не все потеряно – достаточно добавить дополнительный тег <META> в HTML-код вашей страницы (внутри тега <HEAD>):

Тогда данный документ также не будет проиндексирован.

Вы также можете использовать тэг

Он означает, что робот поисковой машины не должен идти по ссылкам с данной страницы.

Для одновременного запрета индексирования страницы и обхода ссылок с нее используется тэг

Как запретить индексацию определенных частей текста?

Чтобы запретить индексирование определенных фрагментов текста в документе, пометьте их тегами

<NOINDEX></NOINDEX>.

Как выбрать главный виртуальный хост из нескольких зеркал?

Если ваш сайт находится на одном сервере (одном IP), но виден во внешнем мире под разными именами (зеркала, разные виртуальные хосты), Яндекс рекомендует вам выбрать то имя, под которым вы хотите быть проиндексированы. В противном случае Яндекс выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации.

Для того, чтобы индексировалось выбранное вами зеркало, достаточно запретить индексацию всех остальных зеркал при помощи robots.txt. Это можно сделать, используя нестандартное расширение robots.txt – директиву Host, в качестве ее параметра указав имя основного зеркала. Если www.glavnoye-zerkalo.ru – основное зеркало, то robots.txt должен выглядеть примерно так:

User-Agent: *

Disallow: /forum

Disallow: /cgi-bin

Host: www.glavnoye-zerkalo.ru

В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву Host необходимо добавлять в группе, начинающейся с записи User-Agent, непосредственно после записей Disallow.

Аргументом директивы Host является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием. Если какой-либо сайт не указан в качестве аргумента для Host, для него подразумевается наличие директивы Disallow: /, т.е. полный запрет индексации (при наличии в группе хотя бы одной корректной директивы Host). Таким образом, файлы robots.txt вида

User-Agent: *

Host: www.myhost.ru

User-Agent: *

Host: www.myhost.ru:80

эквивалентны и запрещают индексирование как www.otherhost.ru, так и www.myhost.ru:8080.

Параметр директивы Host обязан состоять из одного корректного имени хоста (т.е. соответствующего RFC 952 и не являющегося IP-адресом) и допустимого номера порта. Некорректно составленные строчки Host игнорируются.

# Примеры игнорируемых директив Host

Host: www.myhost-.ru

Host: www.-myhost.ru

Host: www.myhost.ru:0

Host: www.my_host.ru

Host: .my-host.ru:8000

Host: my-host.ru.

Host: my..host.ru

Host: www.myhost.ru/

Host: www.myhost.ru:8080/

Host: http://www.myhost.ru

Host: www.mysi.te

Host: 213.180.194.129

Host: www.firsthost.ru,www.secondhost.ru

Host: www.firsthost.ru www.secondhost.ru

Если у вас сервер Apache, то можно вместо использования директивы Host задать robots.txt с использованием директив Индексирование документов Поиск робот индекс цитирования релевантность сайта SSI:

User-Agent: *

Disallow: /

В этом файле роботу запрещен обход всех хостов, кроме

www.главное_имя.ru.

Как включать SSI, можно прочесть в Индексирование документов Поиск робот индекс цитирования релевантность сайта документации по вашему серверу или обратиться к вашему системному администратору. Проверить результат можно, просто запросив страницы:

http://www.главное_имя.ru/robots.txt

http://www.другое_имя.ru/robots.txt

и т.д. Результаты должны быть разные.

Как выяснить, что Yandex проиндексировал на моем сервере?

Подставьте ваш ресурс в форму на странице AddURL (http://yandex.ru/addurl.html).

Если вы получили сообщение, что «Ваш URL __url__ был только что внесен в нашу базу данных.», это значит, что ваш URL ранее не был добавлен. Теперь он добавлен и будет проиндексирован в ближайшее время.

Если вы получили сообщение «Ваш URL __url__ уже известен роботу Яndex. Данный ресурс будет проиндексирован в ближайшее время.», то подождите еще пару дней.

Если вы получили сообщение «Ваш URL __url__ уже проиндексирован. Вы можете посмотреть, какие страницы вашего сайта проиндексированы в Яndex.Ru к настоящему времени», то, нажав на ссылку со слов «проиндексированы в Яndex.Ru», вы получите весь список документов вашего ресурса, проиндексированных в нашей поисковой машине.

Динамические сайты

Робот Яндекса обходит "динамические" страницы и относится к ним в точности так же, как и к "статическим".

Процесс обхода роботом вашего сайта можно рассматривать как обслуживание очереди, состоящей из документов. Чем больше в этой очереди пустых, бессодержательных или совершенно одинаковых документов, тем меньше шанс у интересных и содержательных документов оказаться проиндексированными. Это означает, что вебмастеру стоит подумать, какие документы он хотел бы видеть в выдаче поисковой машины.

Такие документы:

должны иметь постоянный адрес (URL)
должны быть доступны и иметь осмысленное содержание вне зависимости от сессий, cookies и прочих средств идентификации пользователя. Робот - это не человек, и он не поддерживает таких средств.
должны быть уникальны

Дубликат - это один и тот же текст, под десятком разных адресов, зависящих, например, от способа навигации по сайту. Сайты с большим числом дубликатов время от времени подвергаются безжалостной чистке.

Все страницы, не отвечающие вышеперечисленным условиям, следует закрывать от индексирования при помощи файла robots.txt. Чем больше Вы закроете "мусора", тем лучше себя будет чувствовать "нормальное содержание".

Комментарии к странице

Индексирование документов Поиск робот индекс цитирования релевантность сайта