spryt: странствующий вебмастер об авторе | контакты | реклама на блоге

PHP автоматизация: авторизация в LinkFeed

Март 19, 2010

Так-как у линкфида слишком заковыристое апи, к тому же по умолчанию отключенное, используем старый добрый способ парсинга данных «в лоб»:


(если вы не видите код — у вас отключен яваскрипт. Исходный код)

Все довольно просто — отправляем сайту данные авторизации (логин:пароль), получаем Cookies, и загружаем следующую страницу, используя ранее полученные куки. Парсим ответ, получаем чистые данные — если нужно. Первоначальный скрипт мне скинул ленивый программист, правда у меня он почему-то не заработал и пришлось его переписать и дополнить. Если вы планируете часто использовать подобный скрипт — то лучше сохранить куки в файл и использовать уже оттуда, а авторизовываться лишь когда это необходимо. К примеру, чтобы постоянно не разлогиниваться с сапы, я вручную выставил время жизни кук на много лет вперед — так гораздо удобней.

Зачем вообще может пригодится подобный скрипт? К примеру, вы можете залогиниться в той же сапе и автоматически добавить несколько десятков/сотен своих сайтов. Если вы залогинитесь в яндексе, то лимит запросов у вас повышается (хотя ограничение остается), к тому же у яндекса достаточно сервисов, добавление информации в которые не требует ввода капчи 🙂 Да и вообще на любые сервисы, где нет капчи при авторизации — различные партнерки, вконтакте, соц. закладки и прочие полезные ресурсы. К сожалению, так же действуют спамеры — комменты отправляются аналогичным POST запросом (и зачем я это сказал..).

Можно отправлять запросы без авторизации — регистрация LI счетчика, добавление в аддурелку рамблера (когда там не было капчи) и т.д. Чтобы вручную не возиться с исходным кодом, можете воспользоваться парсером HTML форм от Jeck.ru. Можно вообще не отправлять запросов, а сразу парсить страницу — ключи с вордстата, кейворды со статистики LI — там все таки более реальные данные (к сожалению, кто-то обнаглел и эту страницу закрыли), выдачу с Яндекс.Блогов (там есть замечательная ссылка на полный текст записи — не надо мучиться с очищением текста, сразу готовый контент) и еще много много сайтов, к которым может приложить руки сеошник со знанием php 🙂

Но будьте аккуратны с хранением cookies — зная их, можно полностью управлять вашим акком на сайте. Это кстати и являлось целью XSS-атак — встроить на страницу яваскрипт, дождаться, пока на неё зайдет админ, получить его куки, вручную вставить их себе — и вауля, вы авторизованы как администратор. Это уже потом, когда заместо надписей «Defased by Вася» стали пихать ссылки, а потом и сапу, начали в срочном порядке закрывать эти баги и отфильтровывать такие ссылки (а они были даже на яндексе). Так-что осторожнее)

—————-

Тестовый сателлит от Сайтуса проиндексировался, 100 страниц из 400 (хотя тут сам виноват, совсем забыл сделать сайтмап). Хотя выглядит он как говно (но может это мне так повезло с тематикой — сериалы), попробую сделать из других категорий. Мой новостной на старом домене выглядит нормально (даже читабельно), только не индексируется совсем — видимо дело в домене, он хоть и старый, но наверное успел попасть в черный список. Лучше буду делать на новых 🙂 Поднимать тИЦ этому хламу рука не поднимается.

Оказывается, у меня уже 3 сайта-сервиса: анализ сайтов + генерация сайтмап (тИЦ 110, класс), получение ссылки на скачивание видео с ютуба (посещаемость 100/500 в день, иногда непонятные всплески до 400/1600) и конвертер книг для iPod (полгига книг обработано). И у всех стабильная посещаемость, полезность для посетителей и плюшки для меня. С доходом к сожалению довольно туго (у всех 1-2 страницы в индексе), но и трат кроме как на их создание особо нет, ресурсов они много не потребляют, гигантских баз не требуют. Сейчас думаю, как же эти сервисы можно улучшить, а главное — увеличить число страниц в индексе — чтобы хоть как то получить с них доход 🙂 Кстати, какие еще сервисы можно создать?

Мерчант такой мерчант.. Как оказалось, техническая реализация довольно проста, если пользоваться правильным мануалом, а вот бюрократическую машину пройти — совсем другой вопрос.. Уже во второй раз отклоняют заявку. Так что введение автоматической оплаты в TopSape опять откладывается на несколько дней.

Порекомендуй друзьям →

21 комментарий

  1. DimaX

    «у меня уже 3 сайта-сервиса»
    Ссылки? 🙂

  2. Сергей

    Тоже купил сателлит от Сайтуса, давно уже, аж 1000 стр, но боюсь его в сеть выкинуть, т.к огромное кол-во дублей в сети. Ты правил свой сателит7

  3. tulvit

    [offtop]
    Заметил такой баг на топсапе, если адрес внутренней страницы писать с www, то сервер возвращает 404 ошибку, с главной все норм.
    [/offtop]

  4. c0rr

    Установи интеркассу http://interkassa.ru — судя по описанию довольно неплохая система
    или Робокассу http://robokassa.ru, ее я сам устанавливал но она
    — требует наличия персонального сертификата
    — в WMZ не выводит.
    — проценты за перевод всегда начисляются на пользователя, поэтому сложно выставить точную цену

  5. Spryt

    DimaX, сайтмап всем известен, а остальные сервисы специфичные 🙂

    Сергей, нет, просто импортировал и все.

    tulvit, мораль — нефиг юзать www 🙂 Все забываю сделать нормальный редирект.

    c0rr, во первый проценты, во вторых — посредники. Не лучшая идея, но мой взгляд.. Но если не получится напрямую — придется использовать их. Но я все же думаю, что таки добьюсь апрува :))

  6. Кемеровский

    Думаю, монетизация сервисов стоит отдельного поста. Если опишешь попытки свои монетизировать, и неудачи

  7. solarscape

    Curl в связке с регулярными выражениями это мощнейшая штука. Подсел в последнее время на них — клепаю всякие парсеры.

  8. tulvit

    /мораль — нефиг юзать www
    Это фича/бага статистики liveinternet, при переходе по внешним ссылкам автоматически прикручивает ко всем доменам www. Кстати, может в том числе и из-за этого в индексе яндекса всего несколько страниц топсапы, или он его раньше полностью схавал и только потом выплюнул?

  9. Наливаев

    Даешь TopAdsense!?

  10. Ростовский бомж

    Spryt, а от сайтуса какой именно сайт брал? Я, допустим, посмотрел на его сайты — так на SE можно дешевле и получше ГС найти, но определяющее слово тут одно «ГС»

  11. wawilon

    Я тут отпишусь на что напоролся. Чтоб другие не столкнулись. Если скрипт копировать прямо с этой страницы выделяя, то он не будет работать. Копируйте с pastebin! Дело в том что парсер в одном месте ‘слэш’n заменил на пробел.

    А за скрипт респект! Я вот только недавно хотел за изучение curla браться, вот именно для таких целей по всякой автоматизации, а тут прям подарок 🙂 Спасибо! =)

  12. Ростовский бомж

    И еще вопрос — как твой сайт называется (ссылка), где можно карту сайта резать на много разных html страниц ?

  13. Spryt

    tulvit, хм, то-то я думаю откуда преходы.. В общем, поставил нормальный редирект, теперь все работает) Яндекс то проиндексировал, а вот из поиска страницы исключил. Еще давно, в сентябре, ступил и поставил сапу, до сих пор отголоски 😀

    Наливаев, нет. Во первых, нет простого и _безопасного_ апи. Во вторых, термсами это запрещено. Ну и в третьих — не так много блоггеров-манимейкеров зарабатывают в адсенсе) А скрипт статистики можно в инете найти, там система та же, только чуть сложнее из-за гугла.

    Ростовский бомж, простой сателлит. Да, можно наверно, но там все автоматизировано и дешево, что довольно удобно. Да, именно ГС, поэтому я особо и не развиваю, а сателлиты я покупать нерентабельно и бесполезно.

    http://anseo.ru/sitemap/

  14. KIW

    На ансео адсенс бы поставил, может кто в благодарность и покликал бы 🙂

  15. tserj

    В тему, как раз доделал сайт под статистику из 3-х бирж и адсенс. скрипт бесплатен. с биржами работает через API. http://www.statist-motivator.ru

    TopAdsense кто-нить будет делать?)

  16. roman

    @KIW
    за такую благодарность адсенс и забанить может 🙂

  17. Truth Hunter

    У ГС с сайтуса получается очень мало контента на страницах..

  18. Favik

    Truth Hunter, это почему мало?

  19. Spryt

    KIW, а он там и висел, только при такой посещаемости это как-то незаметно %)

    tserj, о, спасибо, хороший скрипт 🙂

  20. Dimoning

    anseo — фигня какая-то не работает

  21. George Kennedy

    Спрут, ты еще в Сочи?

Комментарий:

Андрей «Spryt» Гиацинтов (VK)
Email: me@spryt.ru

Путешествия:

Сейчас: Самара, Россия
Посещенные страны:
открыть все | закрыть все

Посмотреть на Google.Maps

Как дешево путешествовать по Азии

Как найти идею для сайта

Я зарабатываю:

Рубрики:

Итоги(139) Я(61) Блоггинг(48) Таиланд(44) Заработок(42) Философия(37) Бред(35) Путешествия(32) Georgy(21) Сателлиты(17) Малайзия(16) вебдев(15) Колумбия(15) SEO(14) Непал(13) Мои проекты(12) Чианг Май(10) Филиппины(8) Индонезия(8) Бангкок(7) Ява(7) Шри-Ланка(7) Домены(6) Краби(6) Борнео(6) Эквадор(6) скрипты(5) Паттайя(5) Лаос(5) Самуи(5) Камбоджа(5) Кордильеры(4) Каталоги(3) Обзоры блогов(3) Буржунет(3) Cameron Highlands(3) Вокруг Аннапурны(3) Покхара(3) Helambu trek(3) Гонконг(3) Велотрип(3) Вьетнам(3) Россия(3) Гаджеты(2) Бредовые идеи(2) Визы(2) Куала-Лумпур(2) Катманду(2) Сингапур(2) деревня(2)

Архив:

Поиск по блогу:

SEO анализ сайта:

Версия для компьютера | Переключить на мобильную версию