LiArchive — история посещаемости сайтов с закрытыми счетчиками

Я очень часто занимаюсь анализом сторонних сайтов (для покупки, рекламы, анализа ниш и т.д.), и очень часто счетчик LiveInternet есть, данные на счетчике показываются, но сами статы закрыты. Конечно, можно прикинуть примерную посещаемость (данные за 24 часа и за 31 день), но этого не всегда достаточно — могут быть спады в выходные, динамика может быть негативной, ну и вообще неудобно. Учитывая, что более чем 70% сайтов статы закрывают — становится грустно. Однако — сами цифры не счетчиках закрывают около 5% сайтов, поэтому появилась идея для сервиса, который каждый день будет собирать статистику за 24 часа для каждого сайта и сохранять её для анализа. Сказано — сделано:

liarchive

Основная проблема возникла не с самого считывания стат, а с получением списка сайтов. В рейтинге LI участвует 700к сайтов — это всего лишь половина сайтов со счетчиком. Поэтому пришлось затариваться базами и проверять, проверять, проверять — базы ЯКа, DMOZ, топ 1м алексы, доноры сапы, все RU и SU домены (наиболее затянутое — пришлось чекать 5м доменов). В итоге удалось получить список из 1,094,925 сайтов с открытым счетчиком LI, для которых уже больше месяца и собираются данные. Все еще остается 400к неучтенных сайтов, но все же покрытие неплохое, и все более-менее посещаемые и публичные сайты в базу попали.

Кроме того, на основе этих данных я попытался рассчитать уровень «постоянной аудитории» для сайтов. Благодаря сервису мы имеем реальную среднюю посещаемость в день, а с публичных данных счетчика — число уникальных посетителей в месяц. Сравнивая их, мы получим число посетителей, которые посещают сайт регулярно (к примеру, посещаемость топсапы — 1000 уников в день, уникальных посетителей в месяц же только 16к. Из этих данных получается, что 500 человек заходит на сайт регулярно — что подтверждается данными на странице «постоянная аудитория», а так же по «числу новых посетителей»). Только все это доступно для любых сайтов с отображением статистики на счетчиках, поэтому не нужно гадать, что перед тобой — статейник по ПС или сервис с аудиторией.

Энджой — http://liarchive.ru/

Из технической информации — опрос счетчиков начинается в 10 вечера, и продолжается около полутора часов (250 сайтов в секунду). Работает на старом добром PHP, с использование библиотеки RollingCurl, в 20 потоков (можно выше, но впска не резиновая, незачем заваливать la). Графики на Google JS charts мегатормозные, серверных либ — совсем мизер, с отвратительным UI. Поэтому пришлось мучить уже deprecated Google Images Chart API, чтобы все работало быстро и было красиво. Сервис все еще в бете (не настроено регулярное добавление свежих сайтов и доменов, нет поддержки кирилических доменов), но предложения и сотрудничество приветствуется.

Второй вариант использования — это выборки сайтов по параметрам, но этот сервис в паблик скорее всего не выйдет. Так же как выборки посещаемости за более длительное время (когда они наберутся конечно). Се ля ви)

PS. Уже подумал, а стоит ли вообще делать сервис открытым.. Ведь чем больше людей о нем узнает — тем больше людей будет закрывать отображение статистики на счетчиках (я уже так давно делаю для нужных сайтов), не исключено и повышенное внимание со стороны самого LiveInternet. С другой стороны, многие сайты уже и так закрыли статы, а аудитория у блога не настолько большая, чтобы это как-то сильно повлияло. Пусть будет одним сервисом для анализа сайтов больше =)

39 комментариев к “LiArchive — история посещаемости сайтов с закрытыми счетчиками”

  1. Годно. А почему не хочешь сделать бесплатную версию (допустим возможность проверки только 10 сайтов в день) и платную (без ограничений)? Не взлетит? Или по этическим соображением?) По крайней мере такая схема напрашивается.

      цитировать →

  2. Наконец то что-то полезное сделал.

    Пожелания:
    Сделай авторизацию.
    Абонентку рублей 300 в месяц, чтобы можно было свои все сайты в нее запихать и смотреть на 1 странице. С архивными данными.
    + запихать не свои сайты.

    Не говори никому про то откуда парсишь данные и тем более когда, просто говори что сделал крутой счетчик, который супер пупер считает точно посещаемость и может указать тренд для любого сайта за последние три месяца.

    Такой сервис будет просто необходим покупателям сайтов. И тем кто закупается где-то статьями(отсортировать тематические сайты по посещаемости и в вайт лист в биржи) . В общем много что можно придумать, действуй.

      цитировать →

  3. отличный сервис. огромный труд. молодец! пили дальше и закрывай иначе проект умрет. бери подписку небольшую и все будут довольны)

      цитировать →

  4. +1 за подписку, бесплатно только сильно кастрированную версию.

    Только за 30 дней последних показывает сейчас нахаляву, больше никак? В платном это будет?

      цитировать →

  5. О, надо же, сколько предложений сделать платную версию… В целом да, можно было, но это опять грозится стать узким сервисом для 10 подписчиков (таким путем работает xtool). Пока что остается бесплатным (для набора аудитории и стат).

    yan, панелька для сайтов — http://licharts.ru/

    Делать клон similarweb тоже желания нет, мне нужен был конкретный сервис с конкретными данными.

    Только за 30 дней последних показывает сейчас нахаляву, больше никак? В платном это будет?

    Сейчас есть данные только за 40 дней, еще пару месяцев надо хотя бы собирать данные. Если буду делать платную — то да, со всеми имеющимися данными.

    Где брал список всех РУ доменов? А то мне как-раз нужен.

    http://statonline.ru/domainlist?tld=ru

      цитировать →

  6. Art, пример сайтов? Она могла отображаться раньше, но сейчас закрыто, либо — показывается не по домену, а по сокращенному названию (kp.ru => kp)

      цитировать →

  7. Спрут, кстати твой Licharts на большом количестве сайтов (более 50-ти) безбожно глючит. Нули в стате. Продукт явно не приспособлен для большого количества сайтов, как та же панель Дугласа. Я вижу ты не него забил, давненько обновлений не было.

      цитировать →

  8. Raoul, совершенно верно, сайты стоит дробить на группы по 30-50 сайтов. Нули в статах появляются из-за того, что LI банит айпишник (не более 500 запросов за 10 минут). Для сеток в сотни сайтов стоит использовать панель Дугласа. Подзабил, есть такое — текущий функционал меня полностью устраивает, каждый день пользуюсь.

      цитировать →

  9. Очень круто! Не планируешь все же парсинг запросов с ли.ру до полноценного анонса довести? И будет полный охват сервисов по работе с ли.

      цитировать →

  10. Я бы не заморачивался на платную версию, да и вообще бы в паблик не выкладывал, а использовал базу по назначению. Гораздо больший профит можно заиметь перепродавая сайты или продавая за дорого доступ к списку потенциальных сайтов. Придумать как еще автоматом спамить на мылы вебмастеров … В общем конвейер нужен. Тема годная. Осталось до ума довести.

      цитировать →

  11. SEOPLAY.me, я же уже писал — я это уже сделал, довел до ума, парсил пару месяцев, но в итоге данные бесполезны.

    mainflow.ru, данные публичны, раньше уже был подобные сервисы, да и RDS/xtool эти данные собирает (только не так регулярно и не дает публичный доступ). Если поставит ограничение по IP — будет фигово, да, не люблю с проксями возиться)

    Art, sapienti sat. Мне нужно больше стат, муахахахха

    MoneyMakerClub.Net, я тоже об этом думал. Но пока что мои обороты просто смешны, конкурентного приемущества от наличия этих данных я тоже немного получу (просто поиск сайтов будет быстрее и точнее). А то, что даст — нужно время на набор стат и оно в паблик не выйдет (для перехвата освобождающихся доменов).

    Я слишком щепетилен к сайтам, и спам по всем не канает)

      цитировать →

  12. Еще бы прикрутить возможность отображать сайты, которые круто выросли по трафу за какой-то период и в какой-то категории.

      цитировать →

  13. Мне бы твои мозги и знания в области интернета — был бы уже миллионером. Как ты, будучи таким умником, зарабатываешь тридцатку в месяц? Это же если даже специально стараться быть нищебродом — всё равно не получится. Нет в тебе все-таки предпринимательской жилки. Совковый коммунистический менталитет =)

      цитировать →

  14. А почему сайты с другими счетчиками (не LI) не мурыжит? LI ведь полнейший отстой, неужели его вообще сейчас кто-то юзает? Кроме полных дилетантов (ну и тебя, как исключение из правил). Яндекс Метрика и Гугл Аналитикс — вот что стоит у нормальных людей на нормальных сайтах. У меня первые годы стоял счетчик LI — мало того, что п..ел как Троцкий, так еще и сайт из-за него тормозил. Поставил Яндекс Метрику и Гугл Аналитикс — всё отлично. Да и статистика у последних ни в какое сравнение с LI. Один только Вебвизор Яндекса чего стоит.

      цитировать →

  15. А почему сайты с другими счетчиками (не LI) не мурыжит?

    Потому что метрика по умолчанию закрыта

      цитировать →

  16. LI ведь полнейший отстой, неужели его вообще сейчас кто-то юзает? Кроме полных дилетантов (ну и тебя, как исключение из правил). Яндекс Метрика и Гугл Аналитикс – вот что стоит у нормальных людей на нормальных сайтах.

    Сразу видно профессионал веба блять…

    Ли.ру более чем достаточный счетчик для тех, кому нахуй не сдалась «тяжелая» аналитика метрики и гугла, если надо просто посещалку посмотреть, да откуда переходы, этого с головой хватает. И при этом интерфейс ли.ру в 10 раз проще и легче, чем у метрики и аналитики. Это просто разные инструменты для разных задач.

      цитировать →

  17. Да, делай бесплатную версию с ограничениями, а платную за деньги.

    А бесплатную версию без денег делай

      цитировать →

  18. Сразу видно профессионал веба блять…

    Ли.ру более чем достаточный счетчик для тех, кому нахуй не сдалась “тяжелая” аналитика метрики и гугла, если надо просто посещалку посмотреть, да откуда переходы, этого с головой хватает. И при этом интерфейс ли.ру в 10 раз проще и легче, чем у метрики и аналитики.

    Не знал, что у ЯМ есть что-то сложное в интерфейсе =). Ну да ладно. Я Вас понял. То есть, если за одну и ту же стоимость (бесплатно) Вам предложить Мерседес или Запорожец, то выбор падет на Запор, потому что у него кнопочек меньше, а задачу довезти задницу из точка А в точку Б он тоже выполняет не хуже Мерседеса. Что же, забавная логика. Кстати, читаю блог одного человека, который мегакруто разбирается в администрировании сайтов (ideafox), настоящий профи своего дела, и он год назад тоже почему-то настоятельно всем рекомендовал сносить ЛИ и прочее говно, а оставлять только ЯМ и ГА. Лень искать статью на его блоге (сами можете, если интересно), но точно помню, что причины отказа от этой говностатистики были очень весомыми. Также помню, что у меня самого блог порой еле грузился, когда стоял счетчик от ЛИ. Убрал его — сразу всё стало отлично.

      цитировать →

  19. Мне бы твои мозги и знания в области интернета – был бы уже миллионером.

    И что мешает прокачать скилл?

      цитировать →

  20. Спрут, делай видео-блоги на ютубе, сейчас народ там нехило поднимает, и зрителям интересно — сотни тысяч подписчиков, миллионы просмотров, тысячи долларов в месяц.

      цитировать →

  21. там народ например снимает видео понемногу каждый день, а потом монтирует все это в один ролик, получается как один большой пост блога

      цитировать →

  22. Спрут, привет!
    Как тебе такая идея — у тех сайтов, у которых статистика закрыта, но которые участвуют в рейтинге li, можно находить ближайшие по рейтингу сайты с открытой статистикой и по определенному коэффициенту вычислять примерную посещаемость закрытого сайта.

      цитировать →

  23. Иногда бывают ситуации, когда статистика счетчиков оказывается закрытой, тогда вышеописанный способ не поможет вам определить посещаемость чужого сайта. В этом случае можно пойти другим путем – обратить внимание на рейтинг, в котором участвует проверяемый сайт.

      цитировать →

Оставьте комментарий