Индексация сайта

Индексация является второй фазой и происходит после краулинга. Данный шаг работы поисковика в основном сводится к обнаружению дублированного контента. Вероятно, вы заметили, что большинство крупных сайтов содержат неуникальный контент. В случае с текстами, то это могут быть как переводы, так и просто скопированная информация.

Тоже касается и товарного ассортимента -  в различных интернет-магазинах часто представлены одинаковые изделия и марки. В качестве примера можно привести Zappos и Charming Shoppes.

Безусловно, наибольшую проблему в этом плане представляют собой новостные порталы крупных газетных изданий и популярные публикации. В этой среде  ежедневно возникает масса  дублированного контента. К сожалению, это приходится принять как неизбежный факт

Сайты, содержащие дубликаты контента практически никогда не привлекаются к ответственности, особенно на международном уровне,  Тем не менее, существуют специальные  фильтры, способные распознать скопированный или немного измененный материал. Собственно, это и является основной проблемой SEO.

Наличие дубликатов может негативно сказаться на процессе краулинга т.е. привести к тому, что поисковая система пессимизирует страницу. Это означает снижение индекса страницы в частности или даже ресурса в целом. Результат – низкая позиция в выдаче или полное исключение из индекса в том случае, если поступят жалобы от обладателя оригинала. Множественные версии одного и того же документа в поисковых индексах не являются желаемым результатом.

В одном из интервью Мэтт Каттс (Matt Cutts) упомянул о существовании так называемого колпака видимости сайта (crawl cap), который может быть помещен на страницу в зависимости  от её реального PageRank. Реальный  PageRank (PR)– это численное значение, которым оценивает страницу поисковая система и исходя из которого определяется позиция в выдаче. Toolbar PageRank (число от одного до десяти, которое мы можем узнать для каждой страницы) в данном случае не играет особой роли. Также он рассказал о других особенностях, связанных с дубликатом контента.

К примеру, у нас три страницы, из них две дублируют третью. В данном случае копии не индексируются и остается только оригинал. Тем не менее, высокий PR может стать гарантом того, что страницы не исчезнут из поиска.

Вы можете ознакомиться с полной версией интервью Мэтта Каттса и получить исчерпывающую информацию о дубликатах контента. Большая часть, скорее всего, не станет открытием для серьёзных специалистов, но статья в целом может быть хорошим подспорьем в решении многих возникающих проблем.

Например, присутствие ссылок с популярных сайтов высокого качества на страницу сильно повышают её шансы на высокую позицию в выдаче.

Возможно улучшение качества индексации путем определении глубины краулинга, наличия crawl cap и дублирований с последующей ликвидацией последних.

Каким образом можно судить об уровне индексации страницы?

1.            Проанализируйте логи и трафик по адресу страницы(URL). Таким образом можно определить, что именно является источником проблемы.

2.            Желательна небольшая вложенность, т.е. длина цепей внутренних ссылок. Убедитесь, что важнейшие части сайта находятся не более чем в 5 кликах от начальной страницы.

3.            Используйте команды типа inurl, intitle и allintitle. Это позволит вам определить наличие дубликатов в сети.

4.            Используйте  атрибут rel=canonical для указания страницы, которая с вашей точки зрения является более предпочтительной для индексации, так как в противном случае поисковая система может автоматически проиндексировать нежелательную страницу, оставив более ценный дубликат без внимания.

5.            При помощи вебмастера сообщите поисковикам о наличии дубликатов. Таким образом, в процессе краулинга эти страницы не будут учитываться, что будет равноценно их отсуствию.

6.            В файле robots.txt запишите  инструкции по запрету индексации лишних страниц  сайта. Для этой же цели можно использовать мета-теги robots и noindex

7.            Используйте Google Webmaster Tools для определения уровня индексации страницы.

Пагинация и результаты поисковой выдачи

Пагинация (постраничный вывод) является весьма сложным вопросом в SEO. Но если особо не углубляться,  то решить его можно при помощи комбинации атрибута rel=canonical  и  предпросмотра «Показать всё»(View All) на главной странице. Это позволяет вывести все линейки продукта на одну страницу. Метод рекомендован Maile Ohye.

Для управления результатами поисковой выдачи на сайте существует весьма изящное решение. Оно сводится к тому, что создается некая поисковая страница, состоящая из полезных ссылок с небольшими комментариями, которая помечается как наиболее предпочтительная для индексации. Безусловно, эта страница не должна быть частью системы навигации.

Индексация выявляет слабые места URL

Часто  во время изучения особенностей индексирования обнаруживаются все слабые места структуры URL страниц. Особенно это актуально для сайтов крупных организаций, где вы сможете выявить массу неожиданных сбоев. Например, внезапно могут появиться совершенно новые дубликаты

Это является прямым следствием того, что к сайту имеет доступ слишком большое число участников проекта, а также разнообразия бизнес-интересов внутри компании. Собственно, это не является прямой проблемой SEO

Индексация является чрезвычайно важной составляющей всех трех фаз работы поисковика. Воспользуйтесь предложенными методами улучшения индексации и в результате у вас будут более чем удовлетворительные результаты по эффективности краулинга и высокие позиции в выдаче.

 

Комментарии

No Comments

Есть что сказать?

SeoTochka.com 2009-2011