Индексирование офисных документов и Flash

Яндекс индексирует HTML-документы и файлы следующих типов: PDF, DOC/DOCX, XLS/XLSX, PPT/PPTX (MS Office); ODS, ODP, ODT, ODG (Open Office); RTF, TXT и SWF (если на файл ведет прямая ссылка или файл встроен в HTML-код с помощью элемента object или embed. Если SWF-файл содержит полезный контент, исходный HTML-документ может быть найден по контенту, проиндексированному в SWF-файле.

После выхода новых версий программ реализация поддержки новых форматов может занять некоторое время.

Существуют некоторые ограничения на типы индексируемых данных:

  • Документы больше 10 МБ не индексируются.
  • Если PDF-документ содержит только изображения, то индексируются первые три страницы. PDF-документ, содержащий также текст, индексируется полностью.

  • Во Flash-документе индексируется текст, который размещен в блоках:

    • DefineText;

    • DefineText2;

    • DefineEditText;

    • Metadata.

  • Ссылки индексируются, если они размещены в блоках:

    • DoAction;

    • DefineButton;

    • DefineButton2.

Чтобы ваш вопрос быстрее попал к нужному специалисту, уточните тему:

Страницы с разным содержанием могут считаться дублями, если отвечали роботу сообщением об ошибке (например, на сайте была установлена заглушка). Проверьте, как отвечают страницы сейчас. Если страницы отдают разное содержимое, отправьте их на переобход — так они смогут быстрее вернуться в результаты поиска.

Чтобы избежать исключения страниц из поиска в случае кратковременной недоступности сайта, настройте HTTP-код ответа 503.

Исключение страниц из поиска не является ошибкой со стороны сайта или индексирующего робота: исключаются страницы, которые пользователи не смогут обнаружить по запросам, поэтому их исключение не должно повлиять на видимость проиндексированных страниц сайта.

Напишите в службу поддержки, если:

  • страницы занимали высокие позиции в результатах поиска до момента их исключения;
  • позиции сайта после исключения страниц существенно понизились;
  • количестве переходов из поисковой системы значительно сократилось после исключения страниц.