spryt: странствующий вебмастер об авторе | контакты | реклама на блоге

LiArchive — история посещаемости сайтов с закрытыми счетчиками

21 октября, 2015

Я очень часто занимаюсь анализом сторонних сайтов (для покупки, рекламы, анализа ниш и т.д.), и очень часто счетчик LiveInternet есть, данные на счетчике показываются, но сами статы закрыты. Конечно, можно прикинуть примерную посещаемость (данные за 24 часа и за 31 день), но этого не всегда достаточно — могут быть спады в выходные, динамика может быть негативной, ну и вообще неудобно. Учитывая, что более чем 70% сайтов статы закрывают — становится грустно. Однако — сами цифры не счетчиках закрывают около 5% сайтов, поэтому появилась идея для сервиса, который каждый день будет собирать статистику за 24 часа для каждого сайта и сохранять её для анализа. Сказано — сделано:

liarchive

Основная проблема возникла не с самого считывания стат, а с получением списка сайтов. В рейтинге LI участвует 700к сайтов — это всего лишь половина сайтов со счетчиком. Поэтому пришлось затариваться базами и проверять, проверять, проверять — базы ЯКа, DMOZ, топ 1м алексы, доноры сапы, все RU и SU домены (наиболее затянутое — пришлось чекать 5м доменов). В итоге удалось получить список из 1,094,925 сайтов с открытым счетчиком LI, для которых уже больше месяца и собираются данные. Все еще остается 400к неучтенных сайтов, но все же покрытие неплохое, и все более-менее посещаемые и публичные сайты в базу попали.

Кроме того, на основе этих данных я попытался рассчитать уровень «постоянной аудитории» для сайтов. Благодаря сервису мы имеем реальную среднюю посещаемость в день, а с публичных данных счетчика — число уникальных посетителей в месяц. Сравнивая их, мы получим число посетителей, которые посещают сайт регулярно (к примеру, посещаемость топсапы — 1000 уников в день, уникальных посетителей в месяц же только 16к. Из этих данных получается, что 500 человек заходит на сайт регулярно — что подтверждается данными на странице «постоянная аудитория», а так же по «числу новых посетителей»). Только все это доступно для любых сайтов с отображением статистики на счетчиках, поэтому не нужно гадать, что перед тобой — статейник по ПС или сервис с аудиторией.

Энджой — http://liarchive.ru/

Из технической информации — опрос счетчиков начинается в 10 вечера, и продолжается около полутора часов (250 сайтов в секунду). Работает на старом добром PHP, с использование библиотеки RollingCurl, в 20 потоков (можно выше, но впска не резиновая, незачем заваливать la). Графики на Google JS charts мегатормозные, серверных либ — совсем мизер, с отвратительным UI. Поэтому пришлось мучить уже deprecated Google Images Chart API, чтобы все работало быстро и было красиво. Сервис все еще в бете (не настроено регулярное добавление свежих сайтов и доменов, нет поддержки кирилических доменов), но предложения и сотрудничество приветствуется.

Второй вариант использования — это выборки сайтов по параметрам, но этот сервис в паблик скорее всего не выйдет. Так же как выборки посещаемости за более длительное время (когда они наберутся конечно). Се ля ви)

PS. Уже подумал, а стоит ли вообще делать сервис открытым.. Ведь чем больше людей о нем узнает — тем больше людей будет закрывать отображение статистики на счетчиках (я уже так давно делаю для нужных сайтов), не исключено и повышенное внимание со стороны самого LiveInternet. С другой стороны, многие сайты уже и так закрыли статы, а аудитория у блога не настолько большая, чтобы это как-то сильно повлияло. Пусть будет одним сервисом для анализа сайтов больше =)

Порекомендуй друзьям →

39 комментариев

  1. Роман

    Годно. А почему не хочешь сделать бесплатную версию (допустим возможность проверки только 10 сайтов в день) и платную (без ограничений)? Не взлетит? Или по этическим соображением?) По крайней мере такая схема напрашивается.

  2. Raoul

    Да, делай бесплатную версию с ограничениями, а платную за деньги.

  3. tulvit

    троллейбус_из_буханки_хлеба.жпг

  4. yan

    Наконец то что-то полезное сделал.

    Пожелания:
    Сделай авторизацию.
    Абонентку рублей 300 в месяц, чтобы можно было свои все сайты в нее запихать и смотреть на 1 странице. С архивными данными.
    + запихать не свои сайты.

    Не говори никому про то откуда парсишь данные и тем более когда, просто говори что сделал крутой счетчик, который супер пупер считает точно посещаемость и может указать тренд для любого сайта за последние три месяца.

    Такой сервис будет просто необходим покупателям сайтов. И тем кто закупается где-то статьями(отсортировать тематические сайты по посещаемости и в вайт лист в биржи) . В общем много что можно придумать, действуй.

  5. gingerdog

    отличный сервис. огромный труд. молодец! пили дальше и закрывай иначе проект умрет. бери подписку небольшую и все будут довольны)

  6. DimaX

    +1 за подписку, бесплатно только сильно кастрированную версию.

    Только за 30 дней последних показывает сейчас нахаляву, больше никак? В платном это будет?

  7. Alex

    Где брал список всех РУ доменов? А то мне как-раз нужен.

  8. Spryt

    О, надо же, сколько предложений сделать платную версию… В целом да, можно было, но это опять грозится стать узким сервисом для 10 подписчиков (таким путем работает xtool). Пока что остается бесплатным (для набора аудитории и стат).

    yan, панелька для сайтов — http://licharts.ru/

    Делать клон similarweb тоже желания нет, мне нужен был конкретный сервис с конкретными данными.

    Только за 30 дней последних показывает сейчас нахаляву, больше никак? В платном это будет?

    Сейчас есть данные только за 40 дней, еще пару месяцев надо хотя бы собирать данные. Если буду делать платную — то да, со всеми имеющимися данными.

    Где брал список всех РУ доменов? А то мне как-раз нужен.

    http://statonline.ru/domainlist?tld=ru

  9. Art

    Откуда инфа по сайтам у которых не отображается статистика (цифры) на счетчике?

  10. Spryt

    Art, пример сайтов? Она могла отображаться раньше, но сейчас закрыто, либо — показывается не по домену, а по сокращенному названию (kp.ru => kp)

  11. Art

    Например, http://frutbuket.ru/

  12. seoonly.ru

    Я бы сказал МЕГАГОДНО! Спасибо!

  13. Антон

    Вау, Спрут….Респект тебе. Очень полезная штуковина.

  14. Spryt

    Art, инфа на счетчиках есть — http://counter.yadro.ru/logo;frutbuket.ru?29.1

  15. Хрюндель

    Отличный сервис, спасибо! Занес в закладки.

  16. Raoul

    Спрут, кстати твой Licharts на большом количестве сайтов (более 50-ти) безбожно глючит. Нули в стате. Продукт явно не приспособлен для большого количества сайтов, как та же панель Дугласа. Я вижу ты не него забил, давненько обновлений не было.

  17. Spryt

    Raoul, совершенно верно, сайты стоит дробить на группы по 30-50 сайтов. Нули в статах появляются из-за того, что LI банит айпишник (не более 500 запросов за 10 минут). Для сеток в сотни сайтов стоит использовать панель Дугласа. Подзабил, есть такое — текущий функционал меня полностью устраивает, каждый день пользуюсь.

  18. SEOPLAY.me

    Очень круто! Не планируешь все же парсинг запросов с ли.ру до полноценного анонса довести? И будет полный охват сервисов по работе с ли.

  19. mainflow.ru

    Думаю ливеру этот сервис не понравится))

  20. Art

    Подскажите где в настройках отключить вывод статов?)

  21. MoneyMakerClub.Net

    Я бы не заморачивался на платную версию, да и вообще бы в паблик не выкладывал, а использовал базу по назначению. Гораздо больший профит можно заиметь перепродавая сайты или продавая за дорого доступ к списку потенциальных сайтов. Придумать как еще автоматом спамить на мылы вебмастеров … В общем конвейер нужен. Тема годная. Осталось до ума довести.

  22. Spryt

    SEOPLAY.me, я же уже писал — я это уже сделал, довел до ума, парсил пару месяцев, но в итоге данные бесполезны.

    mainflow.ru, данные публичны, раньше уже был подобные сервисы, да и RDS/xtool эти данные собирает (только не так регулярно и не дает публичный доступ). Если поставит ограничение по IP — будет фигово, да, не люблю с проксями возиться)

    Art, sapienti sat. Мне нужно больше стат, муахахахха

    MoneyMakerClub.Net, я тоже об этом думал. Но пока что мои обороты просто смешны, конкурентного приемущества от наличия этих данных я тоже немного получу (просто поиск сайтов будет быстрее и точнее). А то, что даст — нужно время на набор стат и оно в паблик не выйдет (для перехвата освобождающихся доменов).

    Я слишком щепетилен к сайтам, и спам по всем не канает)

  23. Антон

    Спрут, почта указанная на сайте рабочая? Есть идея.

  24. Fringer

    Еще бы прикрутить возможность отображать сайты, которые круто выросли по трафу за какой-то период и в какой-то категории.

  25. Spryt

    Антон, да, пиши.

    Fringer, это уже относится к выборкам сайтов

  26. psd2css

    Очень круто, респект!

    Еще можно сделать чтобы .рф-ки конвертировались сразу в punycode.

  27. Михаил Ситнянский

    Мне бы твои мозги и знания в области интернета — был бы уже миллионером. Как ты, будучи таким умником, зарабатываешь тридцатку в месяц? Это же если даже специально стараться быть нищебродом — всё равно не получится. Нет в тебе все-таки предпринимательской жилки. Совковый коммунистический менталитет =)

  28. Александр

    Годный сервис и шустро работает.

  29. Михаил Ситнянский

    А почему сайты с другими счетчиками (не LI) не мурыжит? LI ведь полнейший отстой, неужели его вообще сейчас кто-то юзает? Кроме полных дилетантов (ну и тебя, как исключение из правил). Яндекс Метрика и Гугл Аналитикс — вот что стоит у нормальных людей на нормальных сайтах. У меня первые годы стоял счетчик LI — мало того, что п..ел как Троцкий, так еще и сайт из-за него тормозил. Поставил Яндекс Метрику и Гугл Аналитикс — всё отлично. Да и статистика у последних ни в какое сравнение с LI. Один только Вебвизор Яндекса чего стоит.

  30. Никола

    А почему сайты с другими счетчиками (не LI) не мурыжит?

    Потому что метрика по умолчанию закрыта

  31. DimaX

    LI ведь полнейший отстой, неужели его вообще сейчас кто-то юзает? Кроме полных дилетантов (ну и тебя, как исключение из правил). Яндекс Метрика и Гугл Аналитикс – вот что стоит у нормальных людей на нормальных сайтах.

    Сразу видно профессионал веба блять…

    Ли.ру более чем достаточный счетчик для тех, кому нахуй не сдалась «тяжелая» аналитика метрики и гугла, если надо просто посещалку посмотреть, да откуда переходы, этого с головой хватает. И при этом интерфейс ли.ру в 10 раз проще и легче, чем у метрики и аналитики. Это просто разные инструменты для разных задач.

  32. Венчик

    Да, делай бесплатную версию с ограничениями, а платную за деньги.

    А бесплатную версию без денег делай

  33. Михаил Ситнянский

    Сразу видно профессионал веба блять…

    Ли.ру более чем достаточный счетчик для тех, кому нахуй не сдалась “тяжелая” аналитика метрики и гугла, если надо просто посещалку посмотреть, да откуда переходы, этого с головой хватает. И при этом интерфейс ли.ру в 10 раз проще и легче, чем у метрики и аналитики.

    Не знал, что у ЯМ есть что-то сложное в интерфейсе =). Ну да ладно. Я Вас понял. То есть, если за одну и ту же стоимость (бесплатно) Вам предложить Мерседес или Запорожец, то выбор падет на Запор, потому что у него кнопочек меньше, а задачу довезти задницу из точка А в точку Б он тоже выполняет не хуже Мерседеса. Что же, забавная логика. Кстати, читаю блог одного человека, который мегакруто разбирается в администрировании сайтов (ideafox), настоящий профи своего дела, и он год назад тоже почему-то настоятельно всем рекомендовал сносить ЛИ и прочее говно, а оставлять только ЯМ и ГА. Лень искать статью на его блоге (сами можете, если интересно), но точно помню, что причины отказа от этой говностатистики были очень весомыми. Также помню, что у меня самого блог порой еле грузился, когда стоял счетчик от ЛИ. Убрал его — сразу всё стало отлично.

  34. mike

    Мне бы твои мозги и знания в области интернета – был бы уже миллионером.

    И что мешает прокачать скилл?

  35. Мореход

    Спрут, делай видео-блоги на ютубе, сейчас народ там нехило поднимает, и зрителям интересно — сотни тысяч подписчиков, миллионы просмотров, тысячи долларов в месяц.

  36. Мореход

    там народ например снимает видео понемногу каждый день, а потом монтирует все это в один ролик, получается как один большой пост блога

  37. tdt11

    Спрут, привет!
    Как тебе такая идея — у тех сайтов, у которых статистика закрыта, но которые участвуют в рейтинге li, можно находить ближайшие по рейтингу сайты с открытой статистикой и по определенному коэффициенту вычислять примерную посещаемость закрытого сайта.

  38. Артём Высоков

    Интересные данные 🙂

    http://liarchive.ru/#!site=yandex.ru

  39. Спектра

    Иногда бывают ситуации, когда статистика счетчиков оказывается закрытой, тогда вышеописанный способ не поможет вам определить посещаемость чужого сайта. В этом случае можно пойти другим путем – обратить внимание на рейтинг, в котором участвует проверяемый сайт.

Андрей «Spryt» Гиацинтов


Email: [email protected]

Youtube канал:

Путешествия:

Сейчас: Самара, Россия
Посещенные страны:
открыть все | закрыть все

Посмотреть на Google.Maps

Как найти идею для сайта

Рубрики:

Итоги(221) Я(72) Блоггинг(53) Заработок(52) Философия(45) Таиланд(44) Бред(40) Путешествия(34) Georgy(21) Малайзия(18) Сателлиты(17) вебдев(16) Колумбия(15) SEO(14) Непал(13) Мои проекты(12) Чианг Май(10) Филиппины(8) Индонезия(8) Домены(7) Шри-Ланка(7) Ява(7) Бангкок(7) Борнео(6) Фондовый рынок(6) Краби(6) Эквадор(6) Камбоджа(5) Турция(5) Самуи(5) Лаос(5) Паттайя(5) скрипты(5) Кордильеры(4) Гаджеты(4) Cameron Highlands(4) Буржунет(4) Гонконг(3) Каталоги(3) Обзоры блогов(3) Велотрип(3) Вьетнам(3) Бредовые идеи(3) Helambu trek(3) Россия(3) Покхара(3) Вокруг Аннапурны(3) Сингапур(2) деревня(2) Катманду(2) Визы(2) Фотография(2) Куала-Лумпур(2)

Архив:

Поиск по блогу:

SEO анализ сайта:

anseo.ru
Версия для компьютера | Переключить на мобильную версию