LiArchive – история посещаемости сайтов с закрытыми счетчиками

Я очень часто занимаюсь анализом сторонних сайтов (для покупки, рекламы, анализа ниш и т.д.), и очень часто счетчик LiveInternet есть, данные на счетчике показываются, но сами статы закрыты. Конечно, можно прикинуть примерную посещаемость (данные за 24 часа и за 31 день), но этого не всегда достаточно – могут быть спады в выходные, динамика может быть негативной, ну и вообще неудобно.

Учитывая, что более чем 70% сайтов статы закрывают – становится грустно. Однако – сами цифры не счетчиках закрывают около 5% сайтов, поэтому появилась идея для сервиса, который каждый день будет собирать статистику за 24 часа для каждого сайта и сохранять её для анализа. 

Основная проблема возникла не с самого считывания стат, а с получением списка сайтов. В рейтинге LI участвует 700к сайтов – это всего лишь половина сайтов со счетчиком. Поэтому пришлось затариваться базами и проверять, проверять, проверять – базы ЯКа, DMOZ, топ 1м алексы, доноры сапы, все RU и SU домены (наиболее затянутое – пришлось чекать 5м доменов).
В итоге удалось получить список из 1,094,925 сайтов с открытым счетчиком LI, для которых уже больше месяца и собираются данные. Все еще остается 400к неучтенных сайтов, но все же покрытие неплохое, и все более-менее посещаемые и публичные сайты в базу попали.

Кроме того, на основе этих данных я попытался рассчитать уровень “постоянной аудитории” для сайтов. Благодаря сервису мы имеем реальную среднюю посещаемость в день, а с публичных данных счетчика – число уникальных посетителей в месяц.
Сравнивая их, мы получим число посетителей, которые посещают сайт регулярно (к примеру, посещаемость топсапы – 1000 уников в день, уникальных посетителей в месяц же только 16к. Из этих данных получается, что 500 человек заходит на сайт регулярно – что подтверждается данными на странице “постоянная аудитория”, а так же по “числу новых посетителей”). Только все это доступно для любых сайтов с отображением статистики на счетчиках, поэтому не нужно гадать, что перед тобой – статейник по ПС или сервис с аудиторией.


Энджой – http://liarchive.ru/




Из технической информации – опрос счетчиков начинается в 10 вечера, и продолжается около полутора часов (250 сайтов в секунду). Работает на старом добром PHP, с использование библиотеки RollingCurl, в 20 потоков (можно выше, но впска не резиновая, незачем заваливать la). Графики на Google JS charts мегатормозные, серверных либ – совсем мизер, с отвратительным UI.
Поэтому пришлось мучить уже deprecated Google Images Chart API, чтобы все работало быстро и было красиво. Сервис все еще в бете (не настроено регулярное добавление свежих сайтов и доменов, нет поддержки кирилических доменов), но предложения и сотрудничество приветствуется.

Второй вариант использования – это выборки сайтов по параметрам, но этот сервис в паблик скорее всего не выйдет. Так же как выборки посещаемости за более длительное время (когда они наберутся конечно). Се ля ви)


PS. Уже подумал, а стоит ли вообще делать сервис открытым.. Ведь чем больше людей о нем узнает – тем больше людей будет закрывать отображение статистики на счетчиках (я уже так давно делаю для нужных сайтов), не исключено и повышенное внимание со стороны самого LiveInternet. С другой стороны, многие сайты уже и так закрыли статы, а аудитория у блога не настолько большая, чтобы это как-то сильно повлияло. Пусть будет одним сервисом для анализа сайтов больше =)

 
Рейтинг :

Комментарии

Еще никто не написал комментария, Вы может быть первым.

Только авторизованные пользователи могут оставлять комментарии, пожалуйста авторизуйтесь.

Наверх