PHP автоматизация: авторизация в LinkFeed
Март 19, 2010Так-как у слишком заковыристое апи, к тому же по умолчанию отключенное, используем старый добрый способ парсинга данных "в лоб":
(если вы не видите код - у вас отключен яваскрипт. )
Все довольно просто - отправляем сайту данные авторизации (логин:пароль), получаем Cookies, и загружаем следующую страницу, используя ранее полученные куки. Парсим ответ, получаем чистые данные - если нужно. Первоначальный скрипт мне скинул , правда у меня он почему-то не заработал и пришлось его переписать и дополнить. Если вы планируете часто использовать подобный скрипт - то лучше сохранить куки в файл и использовать уже оттуда, а авторизовываться лишь когда это необходимо. К примеру, чтобы постоянно не разлогиниваться с сапы, я вручную выставил время жизни кук на много лет вперед - так гораздо удобней.
Зачем вообще может пригодится подобный скрипт? К примеру, вы можете залогиниться в той же сапе и автоматически добавить несколько десятков/сотен своих сайтов. Если вы залогинитесь в яндексе, то лимит запросов у вас повышается (хотя ограничение остается), к тому же у яндекса достаточно сервисов, добавление информации в которые не требует ввода капчи
Да и вообще на любые сервисы, где нет капчи при авторизации - различные партнерки, вконтакте, соц. закладки и прочие полезные ресурсы. К сожалению, так же действуют спамеры - комменты отправляются аналогичным POST запросом (и зачем я это сказал..).
Можно отправлять запросы без авторизации - регистрация LI счетчика, добавление в аддурелку рамблера (когда там не было капчи) и т.д. Чтобы вручную не возиться с исходным кодом, можете воспользоваться от Jeck.ru. Можно вообще не отправлять запросов, а сразу парсить страницу - ключи с вордстата, кейворды со статистики LI - там все таки более реальные данные (к сожалению, кто-то обнаглел и эту страницу закрыли), выдачу с Яндекс.Блогов (там есть замечательная ссылка на полный текст записи - не надо мучиться с очищением текста, сразу готовый контент) и еще много много сайтов, к которым может приложить руки сеошник со знанием php
Но будьте аккуратны с хранением cookies - зная их, можно полностью управлять вашим акком на сайте. Это кстати и являлось целью XSS-атак - встроить на страницу яваскрипт, дождаться, пока на неё зайдет админ, получить его куки, вручную вставить их себе - и вауля, вы авторизованы как администратор. Это уже потом, когда заместо надписей "Defased by Вася" стали пихать ссылки, а потом и сапу, начали в срочном порядке закрывать эти баги и отфильтровывать такие ссылки (а они были даже на яндексе). Так-что осторожнее)
----------------
Тестовый сателлит от проиндексировался, 100 страниц из 400 (хотя тут сам виноват, совсем забыл сделать сайтмап). Хотя выглядит он как говно (но может это мне так повезло с тематикой - сериалы), попробую сделать из других категорий. Мой новостной на старом домене выглядит нормально (даже читабельно), только не индексируется совсем - видимо дело в домене, он хоть и старый, но наверное успел попасть в черный список. Лучше буду делать на новых
Поднимать тИЦ этому хламу рука не поднимается.
Оказывается, у меня уже 3 сайта-сервиса: анализ сайтов + генерация сайтмап (тИЦ 110, класс), получение ссылки на скачивание видео с ютуба (посещаемость 100/500 в день, иногда непонятные всплески до 400/1600) и конвертер книг для iPod (полгига книг обработано). И у всех стабильная посещаемость, полезность для посетителей и плюшки для меня. С доходом к сожалению довольно туго (у всех 1-2 страницы в индексе), но и трат кроме как на их создание особо нет, ресурсов они много не потребляют, гигантских баз не требуют. Сейчас думаю, как же эти сервисы можно улучшить, а главное - увеличить число страниц в индексе - чтобы хоть как то получить с них доход
Кстати, какие еще сервисы можно создать?
Мерчант такой мерчант.. Как оказалось, техническая реализация довольно проста, если пользоваться , а вот бюрократическую машину пройти - совсем другой вопрос.. Уже во второй раз отклоняют заявку. Так что введение автоматической оплаты в TopSape опять откладывается на несколько дней.
Tweet 2leep.com
“у меня уже 3 сайта-сервиса”
Ссылки?
Тоже купил сателлит от Сайтуса, давно уже, аж 1000 стр, но боюсь его в сеть выкинуть, т.к огромное кол-во дублей в сети. Ты правил свой сателит7
[offtop]
Заметил такой баг на топсапе, если адрес внутренней страницы писать с www, то сервер возвращает 404 ошибку, с главной все норм.
[/offtop]
Установи интеркассуhttp://interkassa.ru - судя по описанию довольно неплохая системаhttp://robokassa.ru , ее я сам устанавливал но она
или Робокассу
- требует наличия персонального сертификата
- в WMZ не выводит.
- проценты за перевод всегда начисляются на пользователя, поэтому сложно выставить точную цену
DimaX, сайтмап всем известен, а остальные сервисы специфичные
Сергей, нет, просто импортировал и все.
tulvit, мораль - нефиг юзать www
Все забываю сделать нормальный редирект.
c0rr, во первый проценты, во вторых - посредники. Не лучшая идея, но мой взгляд.. Но если не получится напрямую - придется использовать их. Но я все же думаю, что таки добьюсь апрува :))
Думаю, монетизация сервисов стоит отдельного поста. Если опишешь попытки свои монетизировать, и неудачи
Curl в связке с регулярными выражениями это мощнейшая штука. Подсел в последнее время на них - клепаю всякие парсеры.
/мораль - нефиг юзать wwwhttp://www . Кстати, может в том числе и из-за этого в индексе яндекса всего несколько страниц топсапы, или он его раньше полностью схавал и только потом выплюнул?
Это фича/бага статистики liveinternet, при переходе по внешним ссылкам автоматически прикручивает ко всем доменам
Даешь TopAdsense!?
Spryt, а от сайтуса какой именно сайт брал? Я, допустим, посмотрел на его сайты - так на SE можно дешевле и получше ГС найти, но определяющее слово тут одно “ГС”
Я тут отпишусь на что напоролся. Чтоб другие не столкнулись. Если скрипт копировать прямо с этой страницы выделяя, то он не будет работать. Копируйте с pastebin! Дело в том что парсер в одном месте ‘слэш’n заменил на пробел.
А за скрипт респект! Я вот только недавно хотел за изучение curla браться, вот именно для таких целей по всякой автоматизации, а тут прям подарок
Спасибо! =)
И еще вопрос - как твой сайт называется (ссылка), где можно карту сайта резать на много разных html страниц ?
tulvit, хм, то-то я думаю откуда преходы.. В общем, поставил нормальный редирект, теперь все работает) Яндекс то проиндексировал, а вот из поиска страницы исключил. Еще давно, в сентябре, ступил и поставил сапу, до сих пор отголоски
Наливаев, нет. Во первых, нет простого и _безопасного_ апи. Во вторых, термсами это запрещено. Ну и в третьих - не так много блоггеров-манимейкеров зарабатывают в адсенсе) А скрипт статистики можно в инете найти, там система та же, только чуть сложнее из-за гугла.
Ростовский бомж, простой сателлит. Да, можно наверно, но там все автоматизировано и дешево, что довольно удобно. Да, именно ГС, поэтому я особо и не развиваю, а сателлиты я покупать нерентабельно и бесполезно.
На ансео адсенс бы поставил, может кто в благодарность и покликал бы
В тему, как раз доделал сайт под статистику из 3-х бирж и адсенс. скрипт бесплатен. с биржами работает через API.http://www.statist-motivator.ru
TopAdsense кто-нить будет делать?)
@KIW
за такую благодарность адсенс и забанить может
У ГС с сайтуса получается очень мало контента на страницах..
Truth Hunter, это почему мало?
KIW, а он там и висел, только при такой посещаемости это как-то незаметно %)
tserj, о, спасибо, хороший скрипт
anseo - фигня какая-то не работает
Спрут, ты еще в Сочи?