Комментарии: Итоги Ноября 2014

Автор: Павел

Павел — Mon, 15 Dec 2014 10:53:03 +0000

Спрут, я давно хочу с тобой посоветоваться: а в какие фотобанки ты выкладываешь фотки? Ищу инфу номальную по этой теме, но пока только фигня какая-то попадается

Автор: Spryt

Spryt — Mon, 15 Dec 2014 01:39:56 +0000

Roman, а что там интересного? Все логично — скачиваем страницу, парсим, добавляем в БД данные, к следующему урлу. Хотя я делаю в два скрипта — один только скачивает страницы, другой только парсит. Единственная разница — из-за асинхронности все приходится оборачивать в кучу коллбеков + очереди + постобработка данных после пачки урлов. Преимущества — выше скорость (ХХХ, таки да, на ноуте БД совсем тормозная, на впске эти 300-500 урлов обрабатываются за секунду) из-за асинхронности, но тоже скачивание страниц все равно упирается в тормоза на стороне сайта, почти синхронно идет (но с солянкой разных сайтов наверно должно быть получше — хотя не так критично).

SF и топсапа все парсит синхронно, данных хоть и много и нужны часто, особых проблем нет.

Автор: Roman

Roman — Sun, 14 Dec 2014 08:41:41 +0000

А можешь рассказать подробнее о реализации своего парсера с помощью ноды? Просто чисто профессиональный интерес. Сам сейчас пишу парсер курсов валют на питоне, тоже немало данных. Не самый лучший вариант, по тредам распараллелить нереально ибо GIL, только по процессам. Спасает появившийся в 3.4 asyncio: async I/O, event loop, coroutines.

Автор: Spryt

Spryt — Sat, 13 Dec 2014 21:55:39 +0000

XXX, thx, сохранил в закладках.

wbs, я говорю о чисто технических преимуществах. К примеру, писать сервер на PHP — извращение, на Node.JS — почему бы и нет. Преимущество RoR — хорошее окружение, модульность, свежие либы — совершенно согласен, это упрощает и ускоряет разработку. Но на пыхе точно так же набирается свой стек нужных вещей, в том числе вокруг фреймворков, сильно ускоряя разработку новых проектов (если уже написал несколько проектов на нём). Конечно, не так эффективно, как в RoR, но эта разница не настолько критичная, чтобы изучать новый язык. Как-нибудь — возможно, но не в текущих проектах)

Автор: wbs

wbs — Sat, 13 Dec 2014 21:29:22 +0000

Спрут. Вот ты говоришь не имеет смысла менять php на python / ruby. А я скажу имеет. На тот же Ruby / ROR к примеру. Как не крути, а на PHP за все это время так и не появилось фреймворка уровня ROR. Все эти Yii рядом не валялись. На ROR у тебя построен весь цикл разработки. Статика автоматически сжимается, скрипты компилируются, все оптимизируется автоматически. А через scaffolding дак типовые сайты пишутся на раз-два. Пока ты соберешь это все окружение на php пусть даже при помощи composer, разработчик на ruby уже запустит начальный вид проекта и задеплоит на сервер. Сейчас выигрывает тот, кто может быстро выкатить продукт в продакшен. А Rails это пока может только, Django в догоняющих.

Автор: XXX

XXX — Sat, 13 Dec 2014 06:40:54 +0000

XXX, а через что реализовывать очереди? Я уже сделал, просто через один глобальный массив. Правда, только сейчас понял, сколько я там наговнокодил, сейчас буду рефакторить на async.

Я выше писал kue.
apt-get install redis-server и npm install kue —save
Штука простая, всё что надо есть, работать очень легко.

Автор: Spryt

Spryt — Fri, 12 Dec 2014 20:19:13 +0000

XXX, а через что реализовывать очереди? Я уже сделал, просто через один глобальный массив. Правда, только сейчас понял, сколько я там наговнокодил, сейчас буду рефакторить на async.

Raoul, а как еще изучать новый язык/фрейморк/технологию? Писать hello world’ы и штудировать книги? У меня это никогда не работало. Только реальные задачи и проекты.

Сделай проект на том, что есть и работает. Запусти. После этого извращайся как хочешь – перепиши хоть полностью на чем угодно, НО (минутку внимания) твой проект УЖЕ будет работать все это время пока ты будешь переписывать его.

Ты забываешь, что я уже сделал эту версию для рюнета, наступив на все грабли какие мог. Формально, сейчас мне нужно только краулер переписать, БД и веб-приложение можно оставить таким же на php (только самую малость модифицировать). Но, понимаешь, сейчас, узнав и выяснив многие вещи, становится понятно, что предыдущую версию проще вообще выбросить и переписать всё с нуля (чем я сейчас и занимаюсь), так-как переписывать там реально надо всё. И запускать аналогичную версию для буржа на старом коде просто бессмысленно, она не отвечает техническим требованиям.

А в твоем случае ты, скорее всего, переоценишь свои силы (мотивацию), сильно выбьешься из временный рамок, которые ты наверняка себе поставил.

Есть немного, да. Впрочем, тот же краулер уже почти закончен, я уже его почти на боевую тестирую, и делаю задел для будущего развития (ту же реализацию ссылочного — на первых этапах она особо не нужна, но если её сразу не сделать, потом придется переиндексировать всё заново). Скоро уже начну запускать на впске и выявлять проблемы при индексировании блогов целиком.

По поводу снобизма насчет php, типа это хреновый язык, немодный, несовременный и все такое.

Ничего подобного, во всяком случае у меня. И даже многопоточность не настолько критичная вещь (ну индексировал я блоги в один поток — медленно, но верно, никаких проблем). Однако, для краулера пыха все таки не самый лучший вариант, к тому же под ноду есть замечательные readability-либы, ну и изучить что-то новое весьма полезно.

Но только не надо путать теплое с мягким. Вам деньги зарабатывать (покорять мир своим гениальным стартапом) или повышать свой уровень знаний/умений?

Why not both? Все равно деньги не цель) Если бы я делал скрипт на продажу/фриланс — разумеется, на ноду я бы даже не взглянул) Но тут то свобода выбора, выбирай что душе угодно. Хипстерско не хипстерско — без разницы, хоть на Go пиши (выбор Node.JS во много обусловлен огромным количеством библиотек — мне не пришлось писать краулер/обходчик или выделение текста на странице, все это уже есть. И при этом там нет всякого устаревшего и deprecated кода, к тому же все доступно через единый npm. Хотя я это понял уже после того, как начал работать с ним).

А как ты сможешь осознать, что действуешь неэффективно, если всегда используешь один и тот же инструмент (язык/фреймворк)? Никак. У каждого инструмента есть свои плюсы и минусы, и свои области применения. Я бы с удовольствием сделал бы краулер на Си, но на это уйдет куда больше времени. И на пыхе, если реализовывать аналогичный функционал, тоже (суровый матан парсеров, выделяющих только нужный текст на страницы, мне пока недоступен — во всяком случае, универсальный, а не вручную оформленный для каждого блога).

Автор: Raoul

Raoul — Fri, 12 Dec 2014 18:19:58 +0000

Spryt, ну ты псих, делать аналогичный проект на незнакомом тебе языке. Даже банальный рефакторинг нельзя совмещать с основной разработкой. Сам много раз наступал на эти грабли. Это все очень неэффективно. Зачем ты себе гемор на ровном месте делаешь? Сделай проект на том, что есть и работает. Запусти. После этого извращайся как хочешь — перепиши хоть полностью на чем угодно, НО (минутку внимания) твой проект УЖЕ будет работать все это время пока ты будешь переписывать его. Ты выиграешь время, проект будет работать на тебя, а тем временем ты будешь его переписывать. А в твоем случае ты, скорее всего, переоценишь свои силы (мотивацию), сильно выбьешься из временный рамок, которые ты наверняка себе поставил.

По поводу снобизма насчет php, типа это хреновый язык, немодный, несовременный и все такое. Вы серьезно? Я вообще не пойму в чем проблема. Есть цель, есть средства. Если средства позволяют достичь цели максимально быстро и эффективно, то почему нет? У меня не один проект написан на php кодом далеким от идеального, но тем не менее эти проекты работают быстро (оптимизирую узкие места + толковый админ сервера) и приносят деньги. Что еще нужно? Ну если для фана, то да, я понимаю — всегда интересно что-то новое поизучать. Но только не надо путать теплое с мягким. Вам деньги зарабатывать (покорять мир своим гениальным стартапом) или повышать свой уровень знаний/умений? Это не связано практически, как показывает моя многолетняя практика 🙂

Если для фрилансеров быть в тренде это актуально, ибо рынок формируется модными трендовыми средствами разработки, то если ты работаешь на себя и четко понимаешь что тебе нужно — все эти новомодные хипстерские (лол) языки нахрен не нужны.

Автор: XXX

XXX — Fri, 12 Dec 2014 07:35:14 +0000

Попробуй всё-таки с очередями, смотри. Ты пихаешь например 800 урлов в очерель. В другом месте ты достаёшь скажем 500. Из этих 500 ты уже на этом этапе можешь без обращения к базе понять повторяющиеся хосты. Собственно будешь ты делать одним заходом 500, или 5 параллельных по 100, скорость то одинаковая, т.к. поток то один.

Автор: Spryt

Spryt — Fri, 12 Dec 2014 07:15:51 +0000

XXX, на 10 страниц набирает 300-800 урлов и соответствующих проверок, плюс все идут через pool-соединения. Если бы все работало как ты говоришь, я бы даже не парился над этим вопросом, но так-как тут всё работает асинхронно, получаются такие закавыки. БД — MySql на локалке. Монго/редис конечно пошустрее, но не 500 проверок за несколько секунд (плюс мне нужно хранить слишком много данных, да и привычней все таки).

Повторюсь, если парсить по одному урлу (даже асинхронно) — никаких проблем нет.

Да, я новичок, ноду установил всего месяц назад и многое не понимаю. Но не надо делать типичную ошибку «раз я с такой проблемой не встречался, значит её не существует». У меня вот в первом же скрипте возникла такая проблема. И повторюсь, я её решил, на уровне уникального индекса в БД (раз уж проблема возникает из-за неё) или внутреннего пула (заранее отсортировывая запросы с одинаковыми хостами, чтобы проверка происходила только один раз и данные не пересекались).