Релевантность – степень соответствия выдачи поисковых результатов ожиданиям пользователя, обратившегося с данным поисковым запросом. По степени релевантности выдачи судят об эффективности работы поисковой системы. Насколько релевантна та или иная информация запросу, определяется поисковым алгоритмом.

В самом простом приближении релевантность страницы определяется соотношением количества употребления ключевых слов, входящих в поисковый запрос, на странице сайта к общему объёму текста. Для каждой системы существует свой процент вхождения поисковой фразы в текст, говорящий о высокой релевантности страницы. В среднем это 5%. Меньшее количество поисковых фраз может быть проигнорировано поисковиком. Большее – может попасть под ограничения спам-фильтра поисковой системы со всеми вытекающими последствиями.

Описание

С развитием сети Интернет поисковым системам стала отводиться главенствующая роль. Благодаря их алгоритмам пользователи могли получить быстрый доступ к любой информации. Однако стремительное увеличение количества сайтов также начало порождать и проблему выбора.

Так как на один пользовательский запрос могло быть выдано до нескольких тысяч сайтов, среди которых присутствовали как качественные, так и некачественные, поисковые системы были вынуждены разработать принцип релевантности, позволяющий им отбирать для пользователей наиболее подходящие под их условия документы.

Изначально релевантность страниц определялась внутренними критериями: плотностью ключевых слов в тексте, встречаемостью ключевых слов в заголовке, мета-тегах, элементах оформления текста и многими другими.
Однако после появления дорвеев, оптимизированных под данные требования, появилась необходимость в разработке и внешних параметров, определяющих соответствие сайта введённому запросу.
В качестве примера, описывающего этот процесс, можно рассмотреть следующую формулу:

R=PR*(T+L); где: R – значение релевантности; T – степень соответствия внутренних критериев заданным поисковыми системами требованиям (текстовая релевантность); L – уровень ссылочного ранжирования - степень соответствия текстов входящих ссылок на документ поисковому запросу (ссылочная релевантность); PR – показатель внешних критериев документа, не зависящих от запроса (авторитетность ресурса).

Данная формула не является точным отображением работы современных алгоритмов ранжирования поисковых систем, однако даёт представление о значимости и видах критериев, из которых и складывается релевантность страниц.


Внутренние критерии релевантности

Наиболее значимым внутренним критерием релевантности являются ключевые слова, а именно их частота в тексте. Поисковые системы способны высчитывать этот параметр и при частом повторении какого-либо словосочетания считать его за ключевую фразу.

Если при пользовательском запросе найденные фразы на странице соответствуют его форме и являются ключевыми, то есть часто употребляемыми, сайт будет считаться релевантным.

На ключевые слова большое значение оказывает и их месторасположение. Прежде всего это их наличие в различных заголовках. Если запрос пользователя совпадает с названием документа, вероятность того, что поисковая система оценит эту страницу больше других, станет выше. В качестве дополнительных факторов, влияющих на вес ключевых слов, также выступают:

Близость к началу страницы. Чем ближе к началу страницы находится ключевое слово, тем оно значимее.

Наличие ключевых слов в некоторых местах страницы. К примеру, в заголовках, мета-тегах, тегах оформления текста.

Близость ключевых слов друг к другу. Имеет значение, когда в роли поискового запроса выступает какая-либо фраза, особенно устойчивое словосочетание.

Наличие синонимов ключевых слов. Поисковые системы часто обращают внимание на присутствие в текстах других форм ключевых слов, свидетельствующих о том, что в документах действительно идёт речь по данной тематике.


Внешние критерии релевантности

В основе внешних критериев релевантности лежит принцип цитируемости или ссылочной популярности. Данный фактор подразумевает то, что релевантность сайта может определяться его популярностью в сети Интернет, то есть количеством других ресурсов, ссылающихся на рассматриваемую страницу.
Чем выше их число, тем больше авторитетный вес сайта, а, следовательно, изложенная на нём информация является более качественной.

Каждая из поисковых систем использует свой алгоритм определения уровня цитируемости, однако все они имеют сходный механизм действия и по сути выступают модификацией первого в мире алгоритма, учитывающего количество внешних ссылок, PageRank, разработанного американскими студентами Сергеем Брином и Ларри Пейджем, основавшими поисковую систему Google.

В системе Яндекс аналогом PageRank является ВИЦ – взвешенный индекс цитирования, который был введён весной 2001г. Как заявляли представители компании, ВИЦ высчитывается по той же схеме, что и PageRank, и присваивается каждой странице в отдельности.
До 2002г. ВИЦ можно было посмотреть с помощью «Яндекс-Бара», однако после попыток оптимизаторов искусственно увеличить показания его значение было скрыто. Теперь веб-мастерам доступна только информация о ТИЦ, использующемся для сортировки ресурсов в каталоге Яндекса.

С осени 2002г. коэффициент популярности стала использовать и система Рамблер, которая учитывала не только количество ссылок, но и данные о посещаемости страниц, получаемых от счетчика Top100.

Однако самой первой системой, применившей подобный алгоритм, является «Апорт», использующий показатель авторитетности страниц (ИЦ) с 1999г. В отличие от PageRank, ИЦ учитывает всего одну наиболее весомую ссылку со всех страниц ссылающихся сайтов.

РР°РРµСС