Я очень часто занимаюсь анализом сторонних сайтов (для покупки, рекламы, анализа ниш и т.д.), и очень часто счетчик LiveInternet есть, данные на счетчике показываются, но сами статы закрыты. Конечно, можно прикинуть примерную посещаемость (данные за 24 часа и за 31 день), но этого не всегда достаточно — могут быть спады в выходные, динамика может быть негативной, ну и вообще неудобно. Учитывая, что более чем 70% сайтов статы закрывают — становится грустно. Однако — сами цифры не счетчиках закрывают около 5% сайтов, поэтому появилась идея для сервиса, который каждый день будет собирать статистику за 24 часа для каждого сайта и сохранять её для анализа. Сказано — сделано:
Основная проблема возникла не с самого считывания стат, а с получением списка сайтов. В рейтинге LI участвует 700к сайтов — это всего лишь половина сайтов со счетчиком. Поэтому пришлось затариваться базами и проверять, проверять, проверять — базы ЯКа, DMOZ, топ 1м алексы, доноры сапы, все RU и SU домены (наиболее затянутое — пришлось чекать 5м доменов). В итоге удалось получить список из 1,094,925 сайтов с открытым счетчиком LI, для которых уже больше месяца и собираются данные. Все еще остается 400к неучтенных сайтов, но все же покрытие неплохое, и все более-менее посещаемые и публичные сайты в базу попали.
Кроме того, на основе этих данных я попытался рассчитать уровень «постоянной аудитории» для сайтов. Благодаря сервису мы имеем реальную среднюю посещаемость в день, а с публичных данных счетчика — число уникальных посетителей в месяц. Сравнивая их, мы получим число посетителей, которые посещают сайт регулярно (к примеру, посещаемость топсапы — 1000 уников в день, уникальных посетителей в месяц же только 16к. Из этих данных получается, что 500 человек заходит на сайт регулярно — что подтверждается данными на странице «постоянная аудитория», а так же по «числу новых посетителей»). Только все это доступно для любых сайтов с отображением статистики на счетчиках, поэтому не нужно гадать, что перед тобой — статейник по ПС или сервис с аудиторией.
Энджой — http://liarchive.ru/
Из технической информации — опрос счетчиков начинается в 10 вечера, и продолжается около полутора часов (250 сайтов в секунду). Работает на старом добром PHP, с использование библиотеки RollingCurl, в 20 потоков (можно выше, но впска не резиновая, незачем заваливать la). Графики на Google JS charts мегатормозные, серверных либ — совсем мизер, с отвратительным UI. Поэтому пришлось мучить уже deprecated Google Images Chart API, чтобы все работало быстро и было красиво. Сервис все еще в бете (не настроено регулярное добавление свежих сайтов и доменов, нет поддержки кирилических доменов), но предложения и сотрудничество приветствуется.
Второй вариант использования — это выборки сайтов по параметрам, но этот сервис в паблик скорее всего не выйдет. Так же как выборки посещаемости за более длительное время (когда они наберутся конечно). Се ля ви)
PS. Уже подумал, а стоит ли вообще делать сервис открытым.. Ведь чем больше людей о нем узнает — тем больше людей будет закрывать отображение статистики на счетчиках (я уже так давно делаю для нужных сайтов), не исключено и повышенное внимание со стороны самого LiveInternet. С другой стороны, многие сайты уже и так закрыли статы, а аудитория у блога не настолько большая, чтобы это как-то сильно повлияло. Пусть будет одним сервисом для анализа сайтов больше =)
Годно. А почему не хочешь сделать бесплатную версию (допустим возможность проверки только 10 сайтов в день) и платную (без ограничений)? Не взлетит? Или по этическим соображением?) По крайней мере такая схема напрашивается.
Романцитировать →
Да, делай бесплатную версию с ограничениями, а платную за деньги.
Raoulцитировать →
троллейбус_из_буханки_хлеба.жпг
tulvitцитировать →
Наконец то что-то полезное сделал.
Пожелания:
Сделай авторизацию.
Абонентку рублей 300 в месяц, чтобы можно было свои все сайты в нее запихать и смотреть на 1 странице. С архивными данными.
+ запихать не свои сайты.
Не говори никому про то откуда парсишь данные и тем более когда, просто говори что сделал крутой счетчик, который супер пупер считает точно посещаемость и может указать тренд для любого сайта за последние три месяца.
Такой сервис будет просто необходим покупателям сайтов. И тем кто закупается где-то статьями(отсортировать тематические сайты по посещаемости и в вайт лист в биржи) . В общем много что можно придумать, действуй.
yanцитировать →
отличный сервис. огромный труд. молодец! пили дальше и закрывай иначе проект умрет. бери подписку небольшую и все будут довольны)
gingerdogцитировать →
+1 за подписку, бесплатно только сильно кастрированную версию.
Только за 30 дней последних показывает сейчас нахаляву, больше никак? В платном это будет?
DimaXцитировать →
Где брал список всех РУ доменов? А то мне как-раз нужен.
Alexцитировать →
О, надо же, сколько предложений сделать платную версию… В целом да, можно было, но это опять грозится стать узким сервисом для 10 подписчиков (таким путем работает xtool). Пока что остается бесплатным (для набора аудитории и стат).
yan, панелька для сайтов — http://licharts.ru/
Делать клон similarweb тоже желания нет, мне нужен был конкретный сервис с конкретными данными.
Сейчас есть данные только за 40 дней, еще пару месяцев надо хотя бы собирать данные. Если буду делать платную — то да, со всеми имеющимися данными.
http://statonline.ru/domainlist?tld=ru
Sprytцитировать →
Откуда инфа по сайтам у которых не отображается статистика (цифры) на счетчике?
Artцитировать →
Art, пример сайтов? Она могла отображаться раньше, но сейчас закрыто, либо — показывается не по домену, а по сокращенному названию (kp.ru => kp)
Sprytцитировать →
Например, http://frutbuket.ru/
Artцитировать →
Я бы сказал МЕГАГОДНО! Спасибо!
seoonly.ruцитировать →
Вау, Спрут….Респект тебе. Очень полезная штуковина.
Антонцитировать →
Art, инфа на счетчиках есть — http://counter.yadro.ru/logo;frutbuket.ru?29.1
Sprytцитировать →
Отличный сервис, спасибо! Занес в закладки.
Хрюндельцитировать →
Спрут, кстати твой Licharts на большом количестве сайтов (более 50-ти) безбожно глючит. Нули в стате. Продукт явно не приспособлен для большого количества сайтов, как та же панель Дугласа. Я вижу ты не него забил, давненько обновлений не было.
Raoulцитировать →
Raoul, совершенно верно, сайты стоит дробить на группы по 30-50 сайтов. Нули в статах появляются из-за того, что LI банит айпишник (не более 500 запросов за 10 минут). Для сеток в сотни сайтов стоит использовать панель Дугласа. Подзабил, есть такое — текущий функционал меня полностью устраивает, каждый день пользуюсь.
Sprytцитировать →
Очень круто! Не планируешь все же парсинг запросов с ли.ру до полноценного анонса довести? И будет полный охват сервисов по работе с ли.
SEOPLAY.meцитировать →
Думаю ливеру этот сервис не понравится))
mainflow.ruцитировать →
Подскажите где в настройках отключить вывод статов?)
Artцитировать →
Я бы не заморачивался на платную версию, да и вообще бы в паблик не выкладывал, а использовал базу по назначению. Гораздо больший профит можно заиметь перепродавая сайты или продавая за дорого доступ к списку потенциальных сайтов. Придумать как еще автоматом спамить на мылы вебмастеров … В общем конвейер нужен. Тема годная. Осталось до ума довести.
MoneyMakerClub.Netцитировать →
SEOPLAY.me, я же уже писал — я это уже сделал, довел до ума, парсил пару месяцев, но в итоге данные бесполезны.
mainflow.ru, данные публичны, раньше уже был подобные сервисы, да и RDS/xtool эти данные собирает (только не так регулярно и не дает публичный доступ). Если поставит ограничение по IP — будет фигово, да, не люблю с проксями возиться)
Art, sapienti sat. Мне нужно больше стат, муахахахха
MoneyMakerClub.Net, я тоже об этом думал. Но пока что мои обороты просто смешны, конкурентного приемущества от наличия этих данных я тоже немного получу (просто поиск сайтов будет быстрее и точнее). А то, что даст — нужно время на набор стат и оно в паблик не выйдет (для перехвата освобождающихся доменов).
Я слишком щепетилен к сайтам, и спам по всем не канает)
Sprytцитировать →
Спрут, почта указанная на сайте рабочая? Есть идея.
Антонцитировать →
Еще бы прикрутить возможность отображать сайты, которые круто выросли по трафу за какой-то период и в какой-то категории.
Fringerцитировать →
Антон, да, пиши.
Fringer, это уже относится к выборкам сайтов
Sprytцитировать →
Очень круто, респект!
Еще можно сделать чтобы .рф-ки конвертировались сразу в punycode.
psd2cssцитировать →
Мне бы твои мозги и знания в области интернета — был бы уже миллионером. Как ты, будучи таким умником, зарабатываешь тридцатку в месяц? Это же если даже специально стараться быть нищебродом — всё равно не получится. Нет в тебе все-таки предпринимательской жилки. Совковый коммунистический менталитет =)
Михаил Ситнянскийцитировать →
Годный сервис и шустро работает.
Александрцитировать →
А почему сайты с другими счетчиками (не LI) не мурыжит? LI ведь полнейший отстой, неужели его вообще сейчас кто-то юзает? Кроме полных дилетантов (ну и тебя, как исключение из правил). Яндекс Метрика и Гугл Аналитикс — вот что стоит у нормальных людей на нормальных сайтах. У меня первые годы стоял счетчик LI — мало того, что п..ел как Троцкий, так еще и сайт из-за него тормозил. Поставил Яндекс Метрику и Гугл Аналитикс — всё отлично. Да и статистика у последних ни в какое сравнение с LI. Один только Вебвизор Яндекса чего стоит.
Михаил Ситнянскийцитировать →
Потому что метрика по умолчанию закрыта
Николацитировать →
Сразу видно профессионал веба блять…
Ли.ру более чем достаточный счетчик для тех, кому нахуй не сдалась «тяжелая» аналитика метрики и гугла, если надо просто посещалку посмотреть, да откуда переходы, этого с головой хватает. И при этом интерфейс ли.ру в 10 раз проще и легче, чем у метрики и аналитики. Это просто разные инструменты для разных задач.
DimaXцитировать →
А бесплатную версию без денег делай
Венчикцитировать →
Не знал, что у ЯМ есть что-то сложное в интерфейсе =). Ну да ладно. Я Вас понял. То есть, если за одну и ту же стоимость (бесплатно) Вам предложить Мерседес или Запорожец, то выбор падет на Запор, потому что у него кнопочек меньше, а задачу довезти задницу из точка А в точку Б он тоже выполняет не хуже Мерседеса. Что же, забавная логика. Кстати, читаю блог одного человека, который мегакруто разбирается в администрировании сайтов (ideafox), настоящий профи своего дела, и он год назад тоже почему-то настоятельно всем рекомендовал сносить ЛИ и прочее говно, а оставлять только ЯМ и ГА. Лень искать статью на его блоге (сами можете, если интересно), но точно помню, что причины отказа от этой говностатистики были очень весомыми. Также помню, что у меня самого блог порой еле грузился, когда стоял счетчик от ЛИ. Убрал его — сразу всё стало отлично.
Михаил Ситнянскийцитировать →
И что мешает прокачать скилл?
mikeцитировать →
Спрут, делай видео-блоги на ютубе, сейчас народ там нехило поднимает, и зрителям интересно — сотни тысяч подписчиков, миллионы просмотров, тысячи долларов в месяц.
Мореходцитировать →
там народ например снимает видео понемногу каждый день, а потом монтирует все это в один ролик, получается как один большой пост блога
Мореходцитировать →
Спрут, привет!
Как тебе такая идея — у тех сайтов, у которых статистика закрыта, но которые участвуют в рейтинге li, можно находить ближайшие по рейтингу сайты с открытой статистикой и по определенному коэффициенту вычислять примерную посещаемость закрытого сайта.
tdt11цитировать →
Интересные данные 🙂
http://liarchive.ru/#!site=yandex.ru
Артём Высоковцитировать →
Иногда бывают ситуации, когда статистика счетчиков оказывается закрытой, тогда вышеописанный способ не поможет вам определить посещаемость чужого сайта. В этом случае можно пойти другим путем – обратить внимание на рейтинг, в котором участвует проверяемый сайт.
Спектрацитировать →