PHP автоматизация: авторизация в LinkFeed

Так-как у линкфида слишком заковыристое апи, к тому же по умолчанию отключенное, используем старый добрый способ парсинга данных «в лоб»:


(если вы не видите код — у вас отключен яваскрипт. Исходный код)

Все довольно просто — отправляем сайту данные авторизации (логин:пароль), получаем Cookies, и загружаем следующую страницу, используя ранее полученные куки. Парсим ответ, получаем чистые данные — если нужно. Первоначальный скрипт мне скинул ленивый программист, правда у меня он почему-то не заработал и пришлось его переписать и дополнить. Если вы планируете часто использовать подобный скрипт — то лучше сохранить куки в файл и использовать уже оттуда, а авторизовываться лишь когда это необходимо. К примеру, чтобы постоянно не разлогиниваться с сапы, я вручную выставил время жизни кук на много лет вперед — так гораздо удобней.

Зачем вообще может пригодится подобный скрипт? К примеру, вы можете залогиниться в той же сапе и автоматически добавить несколько десятков/сотен своих сайтов. Если вы залогинитесь в яндексе, то лимит запросов у вас повышается (хотя ограничение остается), к тому же у яндекса достаточно сервисов, добавление информации в которые не требует ввода капчи 🙂 Да и вообще на любые сервисы, где нет капчи при авторизации — различные партнерки, вконтакте, соц. закладки и прочие полезные ресурсы. К сожалению, так же действуют спамеры — комменты отправляются аналогичным POST запросом (и зачем я это сказал..).

Можно отправлять запросы без авторизации — регистрация LI счетчика, добавление в аддурелку рамблера (когда там не было капчи) и т.д. Чтобы вручную не возиться с исходным кодом, можете воспользоваться парсером HTML форм от Jeck.ru. Можно вообще не отправлять запросов, а сразу парсить страницу — ключи с вордстата, кейворды со статистики LI — там все таки более реальные данные (к сожалению, кто-то обнаглел и эту страницу закрыли), выдачу с Яндекс.Блогов (там есть замечательная ссылка на полный текст записи — не надо мучиться с очищением текста, сразу готовый контент) и еще много много сайтов, к которым может приложить руки сеошник со знанием php 🙂

Но будьте аккуратны с хранением cookies — зная их, можно полностью управлять вашим акком на сайте. Это кстати и являлось целью XSS-атак — встроить на страницу яваскрипт, дождаться, пока на неё зайдет админ, получить его куки, вручную вставить их себе — и вауля, вы авторизованы как администратор. Это уже потом, когда заместо надписей «Defased by Вася» стали пихать ссылки, а потом и сапу, начали в срочном порядке закрывать эти баги и отфильтровывать такие ссылки (а они были даже на яндексе). Так-что осторожнее)

—————-

Тестовый сателлит от Сайтуса проиндексировался, 100 страниц из 400 (хотя тут сам виноват, совсем забыл сделать сайтмап). Хотя выглядит он как говно (но может это мне так повезло с тематикой — сериалы), попробую сделать из других категорий. Мой новостной на старом домене выглядит нормально (даже читабельно), только не индексируется совсем — видимо дело в домене, он хоть и старый, но наверное успел попасть в черный список. Лучше буду делать на новых 🙂 Поднимать тИЦ этому хламу рука не поднимается.

Оказывается, у меня уже 3 сайта-сервиса: анализ сайтов + генерация сайтмап (тИЦ 110, класс), получение ссылки на скачивание видео с ютуба (посещаемость 100/500 в день, иногда непонятные всплески до 400/1600) и конвертер книг для iPod (полгига книг обработано). И у всех стабильная посещаемость, полезность для посетителей и плюшки для меня. С доходом к сожалению довольно туго (у всех 1-2 страницы в индексе), но и трат кроме как на их создание особо нет, ресурсов они много не потребляют, гигантских баз не требуют. Сейчас думаю, как же эти сервисы можно улучшить, а главное — увеличить число страниц в индексе — чтобы хоть как то получить с них доход 🙂 Кстати, какие еще сервисы можно создать?

Мерчант такой мерчант.. Как оказалось, техническая реализация довольно проста, если пользоваться правильным мануалом, а вот бюрократическую машину пройти — совсем другой вопрос.. Уже во второй раз отклоняют заявку. Так что введение автоматической оплаты в TopSape опять откладывается на несколько дней.

21 комментарий к “PHP автоматизация: авторизация в LinkFeed”

  1. Тоже купил сателлит от Сайтуса, давно уже, аж 1000 стр, но боюсь его в сеть выкинуть, т.к огромное кол-во дублей в сети. Ты правил свой сателит7

      цитировать →

  2. [offtop]
    Заметил такой баг на топсапе, если адрес внутренней страницы писать с www, то сервер возвращает 404 ошибку, с главной все норм.
    [/offtop]

      цитировать →

  3. Установи интеркассу http://interkassa.ru — судя по описанию довольно неплохая система
    или Робокассу http://robokassa.ru, ее я сам устанавливал но она
    — требует наличия персонального сертификата
    — в WMZ не выводит.
    — проценты за перевод всегда начисляются на пользователя, поэтому сложно выставить точную цену

      цитировать →

  4. DimaX, сайтмап всем известен, а остальные сервисы специфичные 🙂

    Сергей, нет, просто импортировал и все.

    tulvit, мораль — нефиг юзать www 🙂 Все забываю сделать нормальный редирект.

    c0rr, во первый проценты, во вторых — посредники. Не лучшая идея, но мой взгляд.. Но если не получится напрямую — придется использовать их. Но я все же думаю, что таки добьюсь апрува :))

      цитировать →

  5. Curl в связке с регулярными выражениями это мощнейшая штука. Подсел в последнее время на них — клепаю всякие парсеры.

      цитировать →

  6. /мораль — нефиг юзать www
    Это фича/бага статистики liveinternet, при переходе по внешним ссылкам автоматически прикручивает ко всем доменам www. Кстати, может в том числе и из-за этого в индексе яндекса всего несколько страниц топсапы, или он его раньше полностью схавал и только потом выплюнул?

      цитировать →

  7. Spryt, а от сайтуса какой именно сайт брал? Я, допустим, посмотрел на его сайты — так на SE можно дешевле и получше ГС найти, но определяющее слово тут одно «ГС»

      цитировать →

  8. Я тут отпишусь на что напоролся. Чтоб другие не столкнулись. Если скрипт копировать прямо с этой страницы выделяя, то он не будет работать. Копируйте с pastebin! Дело в том что парсер в одном месте ‘слэш’n заменил на пробел.

    А за скрипт респект! Я вот только недавно хотел за изучение curla браться, вот именно для таких целей по всякой автоматизации, а тут прям подарок 🙂 Спасибо! =)

      цитировать →

  9. tulvit, хм, то-то я думаю откуда преходы.. В общем, поставил нормальный редирект, теперь все работает) Яндекс то проиндексировал, а вот из поиска страницы исключил. Еще давно, в сентябре, ступил и поставил сапу, до сих пор отголоски 😀

    Наливаев, нет. Во первых, нет простого и _безопасного_ апи. Во вторых, термсами это запрещено. Ну и в третьих — не так много блоггеров-манимейкеров зарабатывают в адсенсе) А скрипт статистики можно в инете найти, там система та же, только чуть сложнее из-за гугла.

    Ростовский бомж, простой сателлит. Да, можно наверно, но там все автоматизировано и дешево, что довольно удобно. Да, именно ГС, поэтому я особо и не развиваю, а сателлиты я покупать нерентабельно и бесполезно.

    http://anseo.ru/sitemap/

      цитировать →

  10. KIW, а он там и висел, только при такой посещаемости это как-то незаметно %)

    tserj, о, спасибо, хороший скрипт 🙂

      цитировать →

Оставьте комментарий