Robots.txt При самостоятельном продвижении и раскрутке сайта важно не только создание уникального контента или подбор запросов в статистике Яндекса, но и так же следует уделять должное внимание такому показателю, как индексация ресурса поисковиками, ибо от этого тоже зависит весь дальнейший успех продвижения.

У нас с вами имеются в распоряжении два основных инструмента, с помощью которых мы можем управлять этим процессом. Во-первых, это, конечно же, файл robots.txt, который поможет нам запретить индексировать то, что не содержит основного контента (файлы движка и дубли контента) и именно о нем и пойдет речь в этой статье, но кроме этого существует еще один важный инструмент карта сайта (Sitemap xml).

Упомянутые выше инструменты очень важны для успешного развития вашего проекта и это вовсе не голословное утверждение. В статье по Sitemap xml я приводил в пример результаты очень важного исследования по наиболее частым техническим ошибкам начинающих вебмастеров, там на втором и третьем месте (после не уникального контента) находятся как раз отсутствие этих файлов роботс и сайтмап, либо их неправильное составление и использование.

Надо очень четко понимать, что не все содержимое интернет проекта (файлы и директории), созданного на каком-либо движке, должно быть доступно роботам поисковых систем.

Если не прописать определенные правила поведения в роботсе для этих ботов, то в индекс поисковиков попадет множество страниц, не имеющих отношения к значимому содержимому ресурса, а также может произойти многократное дублирование контента (по разным ссылкам будет доступен один и тот же, либо сильно пересекающийся контент), что поисковики не любят.

Хорошим решением будет запрет всего лишнего в robots.txt (все буквы в названии должны быть в нижнем регистре без заглавных букв).

С его помощью мы сможем влиять на процесс индексации сайта Яндексом и Google. Представляет он из себя обычный текстовый файл, который вы сможете создать и в дальнейшем редактировать в любом текстовом редакторе (например, Notepad++). Поисковый бот будет искать этот файл в корневом каталоге вашего ресурса и если не найдет, то будет загонять в индекс все, до чего сможет дотянуться.

Поэтому после написания требуемого роботса, его нужно сохранить в корневую папку, например, с помощью Ftp клиента Filezilla так, чтобы он был доступен, например, по такому адресу: http://sovet-seo.ru/robots.txt

Кстати, если вы хотите узнать как выглядит этот файл у того или иного проекта в сети, то достаточно будет дописать к Урлу его главной страницы окончание вида /robots.txt. Это может быть полезно для понимания того, что в нем должно быть.

Однако, при этом надо учитывать, что для разных движков этот файл будет выглядеть по разному (папки движка, которые нужно запрещать индексировать, будут называться по разному в разных CMS). Поэтому, если вы хотите определиться с лучшим вариантом роботса, допустим для форума на SMF, то и изучать нужно только форумы, построенные на этом движке.

Директивы и правила написания файла robots.txt (disallow, user-agent, host)

Роботс имеет совсем не сложный синтаксис, который очень подробно описан, например, в хелпе яндекса. Обычно в нем указывается, для какого поискового бота предназначены описанные ниже директивы: имя бота ('User-agent'), разрешающие ('Allow') и запрещающие ('Disallow'), а также еще активно используется 'Sitemap' для указания поисковикам, где именно находится файл карты.

Еще полезно указать в этом файле, какое из зеркал вашего вебпроекта является главным в специальной директиве 'Host', которую понимает только Яндекс.

Если даже у вашего ресурса нет зеркал, то полезно будет указать, какой из вариантов написания является главным с www или без него. Т.к. это тоже является своего рода зеркалированием.


Приставку www упоминают везде (в рекламе, по телевизору), потому что многие люди, незнакомые с Интернет, ошибочно считают ее обязательной для сайта. И хотя она уже давно является анахронизмом, многие сайты вынуждены поддерживать свою работу и с www приставкой.

Для всех наших сайтов обычно включена поддержка и www.sovet-seo.ru и просто sovet-seo.ru. А чтобы для поисковых систем это не выглядело как зеркала (два идентичных сайта с разными адресами) - основным адресом как правило считается sovet-seo.ru, а при вводе www.sovet-seo.ru - посетителя перебрасывает (так называемый "Redirect") на основной домен.

Поисковая система сайт запоминает только под одним (основным) доменом. Поэтому, если основным доменом является вариант без www, то и ссылки на сайт в интернете надо всегда ставить без www. Иначе, с точки зрения поисковых систем, эффективность таких ссылок будет ниже. Т.е. "раскручивать" сайт следует с использованием одного - основного домена.


REG.RU

ВОПРОСЫ И ОТВЕТЫ

  • Вопрос: В результатах поиска Yandex мой сайт без www? Можно ли это поменять?
  • Ответ: Это не нужно менять. Если Yandex проиндексировал Ваш сайт как без www, то в этом нет ничего плохого. Скорее вреда больше принесет попытка изменить положение.
  • Вопрос: У меня сайт работает и как www.sovet-seo.ru и как просто sovet-seo.ru? Почему так?
  • Ответ: Приставку www используют исторически, хотя она не нужна. Для совместимости многие сайты работают и так и так.
  • Вопрос: Почему сайт при наборе www.sovet-seo.ru перебрасывает на sovet-seo.ru?
  • Ответ: Чтобы поисковые системы запомнили sovet-seo.ru как основной адрес. Это увеличивает эффективность в поисковых системах (читайте - статью выше).
  • Вопрос: Что такое http://
  • Ответ: Это обозначение протокола связи. Когда Вы смотрите страницы в Интернете, то скорее всего Ваш браузер (Internet Explorer или Opera) работает по протоколу HTTP (HyperText Transfer Protocol), предназначенный для передачи кода страниц сайта. Если Вы вводите в Internet Explorer адрес yandex.ru, то браузер по умолчанию считает, что Вы хотите смотреть сайт, а поэтому обращается к серверу yandex.ru по протоколу HTTP. И в адресной строке появляется: http://yandex.ru/


РР°РРµСС