Как работает поиск Яндекса

  1. Этап 1. Обход сайта
  2. Этап 2. Загрузка и обработка данных (индексирование)
  3. Этап 3. Формирование базы страниц, которые могут участвовать в поиске
  4. Этап 4. Формирование результатов поиска
  5. Почему позиции сайта меняются в результатах поиска
  6. Вопросы и ответы

Чтобы ваш сайт начал отображаться в результатах поиска, Яндекс с помощью роботов должен узнать о его существовании.

Робот — это система, которая обходит страницы сайтов и загружает их в свою базу. У Яндекса есть множество роботов. Сохранение страниц в базу и их дальнейшая обработка с помощью алгоритмов называется индексированием. На основе загруженных данных формируются результаты поиска. Они регулярно обновляются, и позиции сайта могут меняться.

До того, как сайт попадет в результаты поиска, должно пройти несколько этапов:

Этап 1. Обход сайта

Этап 2. Загрузка и обработка данных (индексирование)

Этап 3. Формирование базы страниц, которые могут участвовать в поиске

Этап 4. Формирование результатов поиска

Этап 1. Обход сайта

Робот самостоятельно определяет, какие сайты и как часто нужно посещать, а также какое количество страниц следует обойти на каждом из них.

При обходе робот учитывает список уже известных страниц, который формируется на основе следующих данных:
Роботы постоянно отслеживают появление новых ссылок, обновление контента уже загруженных страниц и их доступность. Это происходит до тех пор, пока:
  • ссылка размещена на вашем или стороннем сайте;
  • страница не запрещена для индексирования в файле robots.txt.

Когда робот пытается загрузить страницу сайта, он получает от сервера ответ с HTTP-статусом:

Код HTTP-статуса Примечание
200 OK Робот обойдет страницу
3XX Роботу нужно обойти страницу, которая является целью редиректа. Подробнее об обработке редиректов
4XX и 5XX

Страница с таким кодом не будет участвовать в поиске. Если до момента обращения робота она находилась в поиске, то будет удалена из него.

Иногда вам может понадобиться временно сделать страницу недоступной для робота и указать, чтобы он обратился к ней еще раз, а не удалил из поиска. Например, из-за неполадок с CMS страница сайта выглядит некорректно. Вы хотите, чтобы робот проиндексировал страницу после исправления ошибки. Настройте для некорректной страницы сервер так, чтобы он отвечал кодом 503. Робот обратится к странице в течение нескольких обходов. После исправления измените ответ сервера.

Примечание. Если страница будет отвечать кодом 503 продолжительное время, то она будет удалена из поиска.
Полезные инструменты

Этап 2. Загрузка и обработка данных (индексирование)

Робот определяет содержание страницы и сохраняет ее в свою базу. Для этого он анализирует контент страницы, например:
  • Содержимое метатега Description, элемента title и микроразметки Schema.org, которое может быть использовано для формирования сниппета страницы.
  • Директиву noindex в метатеге robots. Если она найдена, то страница не попадет в результаты поиска.
  • Атрибут rel="canonical", указывающий на адрес, который вы считаете приоритетным для отображения в поиске для группы одинаковых по содержанию страниц.
  • Текст, изображения и видео. Если робот определит, что контент нескольких страниц совпадает, он может признать их дублирующими.
Полезные инструменты
  • Диагностика — помогает убедиться в качестве сайта и исправить ошибки, если они есть.
  • Статистика обхода — показывает, какие страницы обошел робот и как часто он посещает сайт.
  • Переобход страниц сайта — позволяет сообщить о новой странице сайта или об обновлении уже участвующей в поиске странице.

Этап 3. Формирование базы страниц, которые могут участвовать в поиске

На основе собранной роботом информации алгоритмы определяют страницы, которые могут участвовать в результатах поиска. При этом алгоритмы учитывают множество факторов ранжирования и индексирования, благодаря которым принимается окончательное решение. Например, в базу не попадут закрытые от индексирования страницы или страницы-дубли.

Возможна ситуация, когда страница содержит оригинальный, структурированный текст, но алгоритм не добавляет ее в базу, так как вероятность ее попадания в зону видимости на поиске очень низкая. Например, из-за невостребованности пользователями или высокой конкуренции в данной теме.

Полезные инструменты
  • Страницы в поиске — помогает отслеживать статус страниц сайта, например, HTTP-статус ответа или дублирование страниц.
  • Безопасность сайта — дает информацию о нарушениях и зараженных файлах.

Чтобы узнать о появлении в результатах поиска поддомена сайта, подпишитесь на уведомления.

Почему позиции сайта меняются в результатах поиска

Результаты поиска постоянно меняются по нескольким причинам:

Изменились алгоритмы поиска
Для улучшения качества поиска в алгоритмы ранжирования постоянно вносятся изменения.
Произошло регулярное обновление поисковой базы
Характеристики сайтов постоянно обновляются на основе свежих данных о страницах, а также их популярности среди пользователей. Кроме того, регулярно модернизируются алгоритмы, основанные на машинном обучении, и обновляются факторы ранжирования. Вследствие этого позиции в результатах поиска также могут меняться.
Произошли изменения на других сайтах, которые находились в поиске по интересующим вас запросам
Ваш сайт мог естественным образом изменить позиции в выдаче за счет роста релевантности других ресурсов по этим же запросам (владельцы других сайтов обновляют их). Если первые позиции в поиске заняли подозрительные сайты, сообщите об этом через .
Изменился адрес сайта
После смены адреса возможно понижение позиций сайта в результатах поиска, так как старые страницы пропадают из поискового индекса. Если на сайте настроен редирект с HTTP-кодом 301, ознакомьтесь с правилами его обработки.
Страницы, ранее находившиеся по запросам, пропали из поиска

Проверить наличие страницы в поиске можно с помощью инструмента Проверка статуса URL или задав поисковый запрос с оператором url ().

Чтобы узнать об изменении состояния страниц в поиске, воспользуйтесь Мониторингом важных страниц.

Произошли другие изменения на вашем сайте
Любое изменение на сайте способно повлиять на его позиции в результатах поиска. Например, обновление структуры сайта, адреса (URL) или содержимого страницы, которая находилась по интересующим вас запросам.
Изменились интересы и потребности пользователей
Решение о том, появится ли страница сайта в результатах поиска, принимают специальные алгоритмы на основании множества факторов. Один из них — насколько страница может быть интересна пользователям. Если алгоритм посчитал, что страница не отвечает на запросы, то ее позиции в результатах поиска могут понизиться, или такая страница может быть не включена в список страниц, участвующих в поиске.

Вопросы и ответы

Описание страницы в сниппете отличается от содержимого в Description
В результатах поиска в качестве описания страницы используется текст, наиболее релевантный поисковому запросу: содержимое метатега Descripton или текст, размещенный на странице. Подробнее см. в разделе Отображение заголовка и описания сайта в результатах поиска.
В результатах поиска отображаются ссылки на внутренние фреймы сайта
Перед загрузкой страницы с помощью консоли браузера проверьте, открыт ли родительский фрейм с навигацией. Если он закрыт, откройте его.
Мой сервер не выдает last-modified

Даже если сервер не выдает дату последней модификации документа (last-modified), ваш сайт будет проиндексирован. Однако в этом случае следует учитывать следующее:

  • В результатах поиска не будет показываться дата рядом со страницами вашего сайта.

  • Робот не сможет получить информацию о том, обновилась ли страница сайта с момента последнего индексирования. Количество страниц, получаемых роботом с сайта за один заход, ограничено, поэтому изменившиеся страницы будут переиндексироваться реже.

Как кодировка влияет на индексирование
Тип используемой на сайте кодировки не влияет на индексирование сайта. Если ваш сервер не передает в заголовке кодировку, робот Яндекса также определит ее самостоятельно.
Можно ли управлять частотой переиндексирования с помощью директивы Revisit-After?
Нет. Робот Яндекса ее игнорирует.
Яндекс индексирует сайт на иностранном домене?
Да. Сайты, содержащие страницы на русском, украинском, белорусском языках, индексируются автоматически. Ресурсы на английском, немецком и французском языках индексируются, если они могут быть интересны пользователям.
Индексируется ли содержимое элементов frame и frameset?
Да. Робот Яндекса индексирует контент, подгружаемый в элементы frame и frameset, и находит исходный документ.
Как влияет на индексирование большое количество заданных параметров в URL и его длина

Большое количество заданных параметров в URL и повторяющихся вложенных директорий, а также слишком большая длина URL может привести к ухудшению индексирования сайта.

Максимальная длина URL — 1024 символов.

Как изменить регистр URL страницы
Это можно сделать одним из способов:
Индексирует ли робот архивы GZIP?
Да, робот индексирует архивы в формате GZIP (сжатие GNU ZIP).
Индексирует ли робот URL с якорем (#)?

Робот Яндекса не индексирует адреса страниц с якорем, кроме AJAX-страниц (с символом #!). Например, страница http://example.com/page/#title не попадет в базу робота, он проиндексирует страницу http://example.com/page/ (адрес до символа #).

Как робот индексирует страницы пагинации
Робот не учитывает атрибут rel со значениями prev и next. Поэтому страницы пагинации могут индексироваться и участвовать в поиске без ограничений.