PHP автоматизация: авторизация в LinkFeed
19 марта, 2010Так-как у линкфида слишком заковыристое апи, к тому же по умолчанию отключенное, используем старый добрый способ парсинга данных «в лоб»:
(если вы не видите код — у вас отключен яваскрипт. Исходный код)
Все довольно просто — отправляем сайту данные авторизации (логин:пароль), получаем Cookies, и загружаем следующую страницу, используя ранее полученные куки. Парсим ответ, получаем чистые данные — если нужно. Первоначальный скрипт мне скинул ленивый программист, правда у меня он почему-то не заработал и пришлось его переписать и дополнить. Если вы планируете часто использовать подобный скрипт — то лучше сохранить куки в файл и использовать уже оттуда, а авторизовываться лишь когда это необходимо. К примеру, чтобы постоянно не разлогиниваться с сапы, я вручную выставил время жизни кук на много лет вперед — так гораздо удобней.
Зачем вообще может пригодится подобный скрипт? К примеру, вы можете залогиниться в той же сапе и автоматически добавить несколько десятков/сотен своих сайтов. Если вы залогинитесь в яндексе, то лимит запросов у вас повышается (хотя ограничение остается), к тому же у яндекса достаточно сервисов, добавление информации в которые не требует ввода капчи 🙂 Да и вообще на любые сервисы, где нет капчи при авторизации — различные партнерки, вконтакте, соц. закладки и прочие полезные ресурсы. К сожалению, так же действуют спамеры — комменты отправляются аналогичным POST запросом (и зачем я это сказал..).
Можно отправлять запросы без авторизации — регистрация LI счетчика, добавление в аддурелку рамблера (когда там не было капчи) и т.д. Чтобы вручную не возиться с исходным кодом, можете воспользоваться парсером HTML форм от Jeck.ru. Можно вообще не отправлять запросов, а сразу парсить страницу — ключи с вордстата, кейворды со статистики LI — там все таки более реальные данные (к сожалению, кто-то обнаглел и эту страницу закрыли), выдачу с Яндекс.Блогов (там есть замечательная ссылка на полный текст записи — не надо мучиться с очищением текста, сразу готовый контент) и еще много много сайтов, к которым может приложить руки сеошник со знанием php 🙂
Но будьте аккуратны с хранением cookies — зная их, можно полностью управлять вашим акком на сайте. Это кстати и являлось целью XSS-атак — встроить на страницу яваскрипт, дождаться, пока на неё зайдет админ, получить его куки, вручную вставить их себе — и вауля, вы авторизованы как администратор. Это уже потом, когда заместо надписей «Defased by Вася» стали пихать ссылки, а потом и сапу, начали в срочном порядке закрывать эти баги и отфильтровывать такие ссылки (а они были даже на яндексе). Так-что осторожнее)
—————-
Тестовый сателлит от Сайтуса проиндексировался, 100 страниц из 400 (хотя тут сам виноват, совсем забыл сделать сайтмап). Хотя выглядит он как говно (но может это мне так повезло с тематикой — сериалы), попробую сделать из других категорий. Мой новостной на старом домене выглядит нормально (даже читабельно), только не индексируется совсем — видимо дело в домене, он хоть и старый, но наверное успел попасть в черный список. Лучше буду делать на новых 🙂 Поднимать тИЦ этому хламу рука не поднимается.
Оказывается, у меня уже 3 сайта-сервиса: анализ сайтов + генерация сайтмап (тИЦ 110, класс), получение ссылки на скачивание видео с ютуба (посещаемость 100/500 в день, иногда непонятные всплески до 400/1600) и конвертер книг для iPod (полгига книг обработано). И у всех стабильная посещаемость, полезность для посетителей и плюшки для меня. С доходом к сожалению довольно туго (у всех 1-2 страницы в индексе), но и трат кроме как на их создание особо нет, ресурсов они много не потребляют, гигантских баз не требуют. Сейчас думаю, как же эти сервисы можно улучшить, а главное — увеличить число страниц в индексе — чтобы хоть как то получить с них доход 🙂 Кстати, какие еще сервисы можно создать?
Мерчант такой мерчант.. Как оказалось, техническая реализация довольно проста, если пользоваться правильным мануалом, а вот бюрократическую машину пройти — совсем другой вопрос.. Уже во второй раз отклоняют заявку. Так что введение автоматической оплаты в TopSape опять откладывается на несколько дней.
«у меня уже 3 сайта-сервиса»
Ссылки? 🙂
Тоже купил сателлит от Сайтуса, давно уже, аж 1000 стр, но боюсь его в сеть выкинуть, т.к огромное кол-во дублей в сети. Ты правил свой сателит7
[offtop]
Заметил такой баг на топсапе, если адрес внутренней страницы писать с www, то сервер возвращает 404 ошибку, с главной все норм.
[/offtop]
Установи интеркассу http://interkassa.ru — судя по описанию довольно неплохая система
или Робокассу http://robokassa.ru, ее я сам устанавливал но она
— требует наличия персонального сертификата
— в WMZ не выводит.
— проценты за перевод всегда начисляются на пользователя, поэтому сложно выставить точную цену
DimaX, сайтмап всем известен, а остальные сервисы специфичные 🙂
Сергей, нет, просто импортировал и все.
tulvit, мораль — нефиг юзать www 🙂 Все забываю сделать нормальный редирект.
c0rr, во первый проценты, во вторых — посредники. Не лучшая идея, но мой взгляд.. Но если не получится напрямую — придется использовать их. Но я все же думаю, что таки добьюсь апрува :))
Думаю, монетизация сервисов стоит отдельного поста. Если опишешь попытки свои монетизировать, и неудачи
Curl в связке с регулярными выражениями это мощнейшая штука. Подсел в последнее время на них — клепаю всякие парсеры.
/мораль — нефиг юзать www
Это фича/бага статистики liveinternet, при переходе по внешним ссылкам автоматически прикручивает ко всем доменам www. Кстати, может в том числе и из-за этого в индексе яндекса всего несколько страниц топсапы, или он его раньше полностью схавал и только потом выплюнул?
Даешь TopAdsense!?
Spryt, а от сайтуса какой именно сайт брал? Я, допустим, посмотрел на его сайты — так на SE можно дешевле и получше ГС найти, но определяющее слово тут одно «ГС»
Я тут отпишусь на что напоролся. Чтоб другие не столкнулись. Если скрипт копировать прямо с этой страницы выделяя, то он не будет работать. Копируйте с pastebin! Дело в том что парсер в одном месте ‘слэш’n заменил на пробел.
А за скрипт респект! Я вот только недавно хотел за изучение curla браться, вот именно для таких целей по всякой автоматизации, а тут прям подарок 🙂 Спасибо! =)
И еще вопрос — как твой сайт называется (ссылка), где можно карту сайта резать на много разных html страниц ?
tulvit, хм, то-то я думаю откуда преходы.. В общем, поставил нормальный редирект, теперь все работает) Яндекс то проиндексировал, а вот из поиска страницы исключил. Еще давно, в сентябре, ступил и поставил сапу, до сих пор отголоски 😀
Наливаев, нет. Во первых, нет простого и _безопасного_ апи. Во вторых, термсами это запрещено. Ну и в третьих — не так много блоггеров-манимейкеров зарабатывают в адсенсе) А скрипт статистики можно в инете найти, там система та же, только чуть сложнее из-за гугла.
Ростовский бомж, простой сателлит. Да, можно наверно, но там все автоматизировано и дешево, что довольно удобно. Да, именно ГС, поэтому я особо и не развиваю, а сателлиты я покупать нерентабельно и бесполезно.
http://anseo.ru/sitemap/
На ансео адсенс бы поставил, может кто в благодарность и покликал бы 🙂
В тему, как раз доделал сайт под статистику из 3-х бирж и адсенс. скрипт бесплатен. с биржами работает через API. http://www.statist-motivator.ru
TopAdsense кто-нить будет делать?)
@KIW
за такую благодарность адсенс и забанить может 🙂
У ГС с сайтуса получается очень мало контента на страницах..
Truth Hunter, это почему мало?
KIW, а он там и висел, только при такой посещаемости это как-то незаметно %)
tserj, о, спасибо, хороший скрипт 🙂
anseo — фигня какая-то не работает
Спрут, ты еще в Сочи?