spryt: странствующий вебмастер об авторе | контакты | реклама на блоге

LiArchive — история посещаемости сайтов с закрытыми счетчиками

Октябрь 21, 2015

Я очень часто занимаюсь анализом сторонних сайтов (для покупки, рекламы, анализа ниш и т.д.), и очень часто счетчик LiveInternet есть, данные на счетчике показываются, но сами статы закрыты. Конечно, можно прикинуть примерную посещаемость (данные за 24 часа и за 31 день), но этого не всегда достаточно — могут быть спады в выходные, динамика может быть негативной, ну и вообще неудобно. Учитывая, что более чем 70% сайтов статы закрывают — становится грустно. Однако — сами цифры не счетчиках закрывают около 5% сайтов, поэтому появилась идея для сервиса, который каждый день будет собирать статистику за 24 часа для каждого сайта и сохранять её для анализа. Сказано — сделано:

liarchive

Основная проблема возникла не с самого считывания стат, а с получением списка сайтов. В рейтинге LI участвует 700к сайтов — это всего лишь половина сайтов со счетчиком. Поэтому пришлось затариваться базами и проверять, проверять, проверять — базы ЯКа, DMOZ, топ 1м алексы, доноры сапы, все RU и SU домены (наиболее затянутое — пришлось чекать 5м доменов). В итоге удалось получить список из 1,094,925 сайтов с открытым счетчиком LI, для которых уже больше месяца и собираются данные. Все еще остается 400к неучтенных сайтов, но все же покрытие неплохое, и все более-менее посещаемые и публичные сайты в базу попали.

Кроме того, на основе этих данных я попытался рассчитать уровень «постоянной аудитории» для сайтов. Благодаря сервису мы имеем реальную среднюю посещаемость в день, а с публичных данных счетчика — число уникальных посетителей в месяц. Сравнивая их, мы получим число посетителей, которые посещают сайт регулярно (к примеру, посещаемость топсапы — 1000 уников в день, уникальных посетителей в месяц же только 16к. Из этих данных получается, что 500 человек заходит на сайт регулярно — что подтверждается данными на странице «постоянная аудитория», а так же по «числу новых посетителей»). Только все это доступно для любых сайтов с отображением статистики на счетчиках, поэтому не нужно гадать, что перед тобой — статейник по ПС или сервис с аудиторией.

Энджой — http://liarchive.ru/

Из технической информации — опрос счетчиков начинается в 10 вечера, и продолжается около полутора часов (250 сайтов в секунду). Работает на старом добром PHP, с использование библиотеки RollingCurl, в 20 потоков (можно выше, но впска не резиновая, незачем заваливать la). Графики на Google JS charts мегатормозные, серверных либ — совсем мизер, с отвратительным UI. Поэтому пришлось мучить уже deprecated Google Images Chart API, чтобы все работало быстро и было красиво. Сервис все еще в бете (не настроено регулярное добавление свежих сайтов и доменов, нет поддержки кирилических доменов), но предложения и сотрудничество приветствуется.

Второй вариант использования — это выборки сайтов по параметрам, но этот сервис в паблик скорее всего не выйдет. Так же как выборки посещаемости за более длительное время (когда они наберутся конечно). Се ля ви)

PS. Уже подумал, а стоит ли вообще делать сервис открытым.. Ведь чем больше людей о нем узнает — тем больше людей будет закрывать отображение статистики на счетчиках (я уже так давно делаю для нужных сайтов), не исключено и повышенное внимание со стороны самого LiveInternet. С другой стороны, многие сайты уже и так закрыли статы, а аудитория у блога не настолько большая, чтобы это как-то сильно повлияло. Пусть будет одним сервисом для анализа сайтов больше =)

Порекомендуй друзьям →

39 комментариев

  1. Роман

    Годно. А почему не хочешь сделать бесплатную версию (допустим возможность проверки только 10 сайтов в день) и платную (без ограничений)? Не взлетит? Или по этическим соображением?) По крайней мере такая схема напрашивается.

  2. Raoul

    Да, делай бесплатную версию с ограничениями, а платную за деньги.

  3. tulvit

    троллейбус_из_буханки_хлеба.жпг

  4. yan

    Наконец то что-то полезное сделал.

    Пожелания:
    Сделай авторизацию.
    Абонентку рублей 300 в месяц, чтобы можно было свои все сайты в нее запихать и смотреть на 1 странице. С архивными данными.
    + запихать не свои сайты.

    Не говори никому про то откуда парсишь данные и тем более когда, просто говори что сделал крутой счетчик, который супер пупер считает точно посещаемость и может указать тренд для любого сайта за последние три месяца.

    Такой сервис будет просто необходим покупателям сайтов. И тем кто закупается где-то статьями(отсортировать тематические сайты по посещаемости и в вайт лист в биржи) . В общем много что можно придумать, действуй.

  5. gingerdog

    отличный сервис. огромный труд. молодец! пили дальше и закрывай иначе проект умрет. бери подписку небольшую и все будут довольны)

  6. DimaX

    +1 за подписку, бесплатно только сильно кастрированную версию.

    Только за 30 дней последних показывает сейчас нахаляву, больше никак? В платном это будет?

  7. Alex

    Где брал список всех РУ доменов? А то мне как-раз нужен.

  8. Spryt

    О, надо же, сколько предложений сделать платную версию… В целом да, можно было, но это опять грозится стать узким сервисом для 10 подписчиков (таким путем работает xtool). Пока что остается бесплатным (для набора аудитории и стат).

    yan, панелька для сайтов — http://licharts.ru/

    Делать клон similarweb тоже желания нет, мне нужен был конкретный сервис с конкретными данными.

    Только за 30 дней последних показывает сейчас нахаляву, больше никак? В платном это будет?

    Сейчас есть данные только за 40 дней, еще пару месяцев надо хотя бы собирать данные. Если буду делать платную — то да, со всеми имеющимися данными.

    Где брал список всех РУ доменов? А то мне как-раз нужен.

    http://statonline.ru/domainlist?tld=ru

  9. Art

    Откуда инфа по сайтам у которых не отображается статистика (цифры) на счетчике?

  10. Spryt

    Art, пример сайтов? Она могла отображаться раньше, но сейчас закрыто, либо — показывается не по домену, а по сокращенному названию (kp.ru => kp)

  11. Art

    Например, http://frutbuket.ru/

  12. seoonly.ru

    Я бы сказал МЕГАГОДНО! Спасибо!

  13. Антон

    Вау, Спрут….Респект тебе. Очень полезная штуковина.

  14. Spryt

    Art, инфа на счетчиках есть — http://counter.yadro.ru/logo;frutbuket.ru?29.1

  15. Хрюндель

    Отличный сервис, спасибо! Занес в закладки.

  16. Raoul

    Спрут, кстати твой Licharts на большом количестве сайтов (более 50-ти) безбожно глючит. Нули в стате. Продукт явно не приспособлен для большого количества сайтов, как та же панель Дугласа. Я вижу ты не него забил, давненько обновлений не было.

  17. Spryt

    Raoul, совершенно верно, сайты стоит дробить на группы по 30-50 сайтов. Нули в статах появляются из-за того, что LI банит айпишник (не более 500 запросов за 10 минут). Для сеток в сотни сайтов стоит использовать панель Дугласа. Подзабил, есть такое — текущий функционал меня полностью устраивает, каждый день пользуюсь.

  18. SEOPLAY.me

    Очень круто! Не планируешь все же парсинг запросов с ли.ру до полноценного анонса довести? И будет полный охват сервисов по работе с ли.

  19. mainflow.ru

    Думаю ливеру этот сервис не понравится))

  20. Art

    Подскажите где в настройках отключить вывод статов?)

  21. MoneyMakerClub.Net

    Я бы не заморачивался на платную версию, да и вообще бы в паблик не выкладывал, а использовал базу по назначению. Гораздо больший профит можно заиметь перепродавая сайты или продавая за дорого доступ к списку потенциальных сайтов. Придумать как еще автоматом спамить на мылы вебмастеров … В общем конвейер нужен. Тема годная. Осталось до ума довести.

  22. Spryt

    SEOPLAY.me, я же уже писал — я это уже сделал, довел до ума, парсил пару месяцев, но в итоге данные бесполезны.

    mainflow.ru, данные публичны, раньше уже был подобные сервисы, да и RDS/xtool эти данные собирает (только не так регулярно и не дает публичный доступ). Если поставит ограничение по IP — будет фигово, да, не люблю с проксями возиться)

    Art, sapienti sat. Мне нужно больше стат, муахахахха

    MoneyMakerClub.Net, я тоже об этом думал. Но пока что мои обороты просто смешны, конкурентного приемущества от наличия этих данных я тоже немного получу (просто поиск сайтов будет быстрее и точнее). А то, что даст — нужно время на набор стат и оно в паблик не выйдет (для перехвата освобождающихся доменов).

    Я слишком щепетилен к сайтам, и спам по всем не канает)

  23. Антон

    Спрут, почта указанная на сайте рабочая? Есть идея.

  24. Fringer

    Еще бы прикрутить возможность отображать сайты, которые круто выросли по трафу за какой-то период и в какой-то категории.

  25. Spryt

    Антон, да, пиши.

    Fringer, это уже относится к выборкам сайтов

  26. psd2css

    Очень круто, респект!

    Еще можно сделать чтобы .рф-ки конвертировались сразу в punycode.

  27. Михаил Ситнянский

    Мне бы твои мозги и знания в области интернета — был бы уже миллионером. Как ты, будучи таким умником, зарабатываешь тридцатку в месяц? Это же если даже специально стараться быть нищебродом — всё равно не получится. Нет в тебе все-таки предпринимательской жилки. Совковый коммунистический менталитет =)

  28. Александр

    Годный сервис и шустро работает.

  29. Михаил Ситнянский

    А почему сайты с другими счетчиками (не LI) не мурыжит? LI ведь полнейший отстой, неужели его вообще сейчас кто-то юзает? Кроме полных дилетантов (ну и тебя, как исключение из правил). Яндекс Метрика и Гугл Аналитикс — вот что стоит у нормальных людей на нормальных сайтах. У меня первые годы стоял счетчик LI — мало того, что п..ел как Троцкий, так еще и сайт из-за него тормозил. Поставил Яндекс Метрику и Гугл Аналитикс — всё отлично. Да и статистика у последних ни в какое сравнение с LI. Один только Вебвизор Яндекса чего стоит.

  30. Никола

    А почему сайты с другими счетчиками (не LI) не мурыжит?

    Потому что метрика по умолчанию закрыта

  31. DimaX

    LI ведь полнейший отстой, неужели его вообще сейчас кто-то юзает? Кроме полных дилетантов (ну и тебя, как исключение из правил). Яндекс Метрика и Гугл Аналитикс – вот что стоит у нормальных людей на нормальных сайтах.

    Сразу видно профессионал веба блять…

    Ли.ру более чем достаточный счетчик для тех, кому нахуй не сдалась «тяжелая» аналитика метрики и гугла, если надо просто посещалку посмотреть, да откуда переходы, этого с головой хватает. И при этом интерфейс ли.ру в 10 раз проще и легче, чем у метрики и аналитики. Это просто разные инструменты для разных задач.

  32. Венчик

    Да, делай бесплатную версию с ограничениями, а платную за деньги.

    А бесплатную версию без денег делай

  33. Михаил Ситнянский

    Сразу видно профессионал веба блять…

    Ли.ру более чем достаточный счетчик для тех, кому нахуй не сдалась “тяжелая” аналитика метрики и гугла, если надо просто посещалку посмотреть, да откуда переходы, этого с головой хватает. И при этом интерфейс ли.ру в 10 раз проще и легче, чем у метрики и аналитики.

    Не знал, что у ЯМ есть что-то сложное в интерфейсе =). Ну да ладно. Я Вас понял. То есть, если за одну и ту же стоимость (бесплатно) Вам предложить Мерседес или Запорожец, то выбор падет на Запор, потому что у него кнопочек меньше, а задачу довезти задницу из точка А в точку Б он тоже выполняет не хуже Мерседеса. Что же, забавная логика. Кстати, читаю блог одного человека, который мегакруто разбирается в администрировании сайтов (ideafox), настоящий профи своего дела, и он год назад тоже почему-то настоятельно всем рекомендовал сносить ЛИ и прочее говно, а оставлять только ЯМ и ГА. Лень искать статью на его блоге (сами можете, если интересно), но точно помню, что причины отказа от этой говностатистики были очень весомыми. Также помню, что у меня самого блог порой еле грузился, когда стоял счетчик от ЛИ. Убрал его — сразу всё стало отлично.

  34. mike

    Мне бы твои мозги и знания в области интернета – был бы уже миллионером.

    И что мешает прокачать скилл?

  35. Мореход

    Спрут, делай видео-блоги на ютубе, сейчас народ там нехило поднимает, и зрителям интересно — сотни тысяч подписчиков, миллионы просмотров, тысячи долларов в месяц.

  36. Мореход

    там народ например снимает видео понемногу каждый день, а потом монтирует все это в один ролик, получается как один большой пост блога

  37. tdt11

    Спрут, привет!
    Как тебе такая идея — у тех сайтов, у которых статистика закрыта, но которые участвуют в рейтинге li, можно находить ближайшие по рейтингу сайты с открытой статистикой и по определенному коэффициенту вычислять примерную посещаемость закрытого сайта.

  38. Артём Высоков

    Интересные данные 🙂

    http://liarchive.ru/#!site=yandex.ru

  39. Спектра

    Иногда бывают ситуации, когда статистика счетчиков оказывается закрытой, тогда вышеописанный способ не поможет вам определить посещаемость чужого сайта. В этом случае можно пойти другим путем – обратить внимание на рейтинг, в котором участвует проверяемый сайт.

Комментарий:

Андрей «Spryt» Гиацинтов (VK)
Email: me@spryt.ru

Путешествия:

Сейчас: Самара, Россия
Посещенные страны:
открыть все | закрыть все

Посмотреть на Google.Maps

Как дешево путешествовать по Азии

Как найти идею для сайта

Я зарабатываю:

Рубрики:

Итоги(138) Я(61) Блоггинг(48) Таиланд(44) Заработок(41) Философия(37) Бред(35) Путешествия(32) Georgy(21) Сателлиты(17) Малайзия(16) вебдев(15) Колумбия(15) SEO(14) Непал(13) Мои проекты(12) Чианг Май(10) Филиппины(8) Индонезия(8) Бангкок(7) Ява(7) Шри-Ланка(7) Домены(6) Краби(6) Борнео(6) Эквадор(6) скрипты(5) Паттайя(5) Лаос(5) Самуи(5) Камбоджа(5) Кордильеры(4) Каталоги(3) Обзоры блогов(3) Буржунет(3) Cameron Highlands(3) Вокруг Аннапурны(3) Покхара(3) Helambu trek(3) Гонконг(3) Велотрип(3) Вьетнам(3) Россия(3) Гаджеты(2) Бредовые идеи(2) Визы(2) Куала-Лумпур(2) Катманду(2) Сингапур(2) деревня(2)

Архив:

Поиск по блогу:

SEO анализ сайта:

Версия для компьютера | Переключить на мобильную версию