Переводные мультиязычные сайты
25 января, 2022В принципе, уже года три прошло, все кто хотел снять сливки с темы — уже сняли, и гугл уже пару раз вайпал полностью всё подобное. Тем более для меня сайтовое направление уже не такое актуальное. Поэтому можно рассказать немного подробнее про данную нишу, как туда заходить, в чем профиты, какие подводные камни)
Итак, бурж. Для многих бурж — это синоним рынка США и сайтов на английском, однако я напомню — в мире 90 языков с числом носителей больше 10 млн, и английский, внезапно, не является самым популярным. И хотя по распространенности среди сайтов в интернете они занимает внушительную долю в 54% — но отнюдь не всю. Минусы этого заблуждения в том, что рынок США, несмотря на свою доходность — место с кровавой конкуренцией, где за пользователя будут бороться миллионы вебмастеров, часть из которых будет с бесконечными бюджетами на дропы, ссылки, контент и прочее, и жалобы сеошников в рунете на «несправедливый яндекс» покажутся вам детским лепетом для тех, кто занимается продвижением под гугл в США. Поэтому ничего удивительного в том, что 9 из 10 вебмастеров, решивших попробовать сделать сайт на английском — люто фейлят и просирают деньги (даже с бюджетами, а без них там вообще делать нечего).
Однако, вместе с тем, огромное количество вебмастеров из СНГ спокойно живет на доходы от русскоязычных сайтов, со скромной аудиторией по мировым меркам, и не далеко не самым большим числом носителей. Но при этом рынок русскоязычных сайтов точно так же превратился в арену конкуренции, и не только среди вебмастеров, но и среди крупных IT компаний. То есть на локальных рынках вполне себе есть жизнь. Теперь вопрос — чем русскоязычный сегмент интернета отличается от турецкоязычного, тайского, корейского, венгерского и других? Там не будет конкуренции с Яндексом, и в целом конкуренция будет скорее меньше (учитывая, что рунет на втором месте в интернете по числу сайтов), и доходность будет плавать от страны к стране. Чуть ниже подробней последний пункт разберем, но результат совсем не очевидный.
Очевидный факт — интернет уже давно и прочно пришел в РФ, и увеличения пользователей интернета почти не происходит (медленный прирост за счет подрастающих детей и скучающих пенсионеров). Когда вебмастера вспоминают с придыханием жирный конец нулевых — забывается, что в это время с каждым годом число пользователей увеличивалось, и тот же рост статейников на женскую тематику связан как раз с тем, что в интернеты массово начала приходить аудитория 35-60 (в 2007 попросту не было достаточно «мамочек» в интернетах, чтобы отбить вложения на подобные сайты, хотя они уже и существовали). Рунет прошел этот период, рынки многих развивающихся стран — еще нет. Их вебмастера еще не выросли и не заматерели, жители этих стран так же не читают статьи на английском, как их не читают средний житель РФ, и обьем контента на их языке еще не так уж много, чтобы был широкий выбор. Далеко не все сразу пойдут на ютуб (хотя таких и много).
Поэтому, временно забудем про сайты на русском и на английском. Что дальше?
Я не знаю арабского!
И я не знаю. Но у меня есть сайты на арабском и на фарси) Решается это разными методами — поиском русскоязычных переводчиков (выбор ограничен, заряженные цены), поиск нативов для написания контента на нужном языке (особенно актуально для развивающихся стран), на фиверре например, и автоматический перевод. Ну для совсем стартапов есть специальные услуги, где вам за скромные $5-10к переведут интерфейсы вашего сайта/приложения на десятки других языков, причем так, чтобы это выглядело не вырвиглазно. Понятное дело, если вы делаете ревьюшник под амазон, то у вас только написание/вычитка нативом по $100-300 за статью, но еще раз — забыли про английский. Вообще, про первые два способа я вам ничего не расскажу, это все к адептам конвейеров, переписать инструкции на нужный язык, нанять авторов из нужной страны и научится им платить — это чисто организаторский вопрос. Меня разумеется интересует именно автоматический перевод.
Все делается настолько просто, что даже смешно. Просто качаете библиотеку dejurin/php-google-translate-for-free, выбираете один из 108 поддерживаемых языков, и переводите. Даже без прокси, в 20 потоков, блоками по 5000 символов — я вытащил оттуда десятки-сотни миллионов символов текстов (десятки и десятки тысяч статей). А если у вас проснулась совесть — есть и оффициальное API от гугла с гуманным ценником в $20 за миллион символов. У яндекса и майкрософт есть аналогичные сервисы с тем же ценником, но качество перевода было хуже. Deepl тогда не было, и он тоже $25/mil. В любом случае для моих целей и объемов платно делать было не вариант, не окупилось бы.
Дальше, вновь, у нас есть несколько вариантов. Если это просто какой-то сервис (типа скачивания видео с ютуба, или что-то подобное) — то вам сам бог велел либо сразу его делать с поддержкой мультиязычности, либо адаптировать. Я делал костылями, показывать не буду, это к программистам — но суть в том, что все слова/тексты в в шаблоне заменяются на вызов массива с нужным ключем, а при загрузке сайта определяется язык и подгружаются нужные языковые данные, и везде на сайте показывается уже на нужном языке. Я предпочитаю делать на поддоменах, некоторые делают в папках, опять же, это сеошный холивар. Если будете делать на поддоменах — вновь, не забудьте отсыпать монет программисту, чтобы все работало из одной физической папки на сервере, у меня был опыт переписывания сайта с 10 языковыми версиями, каждая из которых была создана как отдельный сайт, со своей таблицой в БД, своим шаблоном и прочим. Не делайте так. Даже для WP есть плагины, но у меня все на самописе.
Но с точки зрения профита — тут не факт что он будет, каждую языковую версию придется подкачать ссылками, и будьте уверены — 99% мейнстрим сервисов уже имеют переводные версии на 30 языках. Но — далеко не все, и подобные еще можно найти и сделать. Поэтому, еще раз, если вы программист, и делаете какой-нибудь примитивный сервис калькулятор, скачивания видео с тиктока, курсы криптовалют, онлайн фоторедактор — сразу же делайте его мультиязычным, и как минимум с 10 языковыми версиями (а лучше с 20).
Второй вариант — генеративные описания, сорт оф дорвеи. К примеру, музыка — везде слушают примерно одну и ту же попсу, контента там нет, поэтому просто сгенерированный на нужным языке текст со вставками может залетать в индекс и давать траф из нужной страны, и не будет настолько быстро гасится по DMCA. Опять же, тут трудоемкость не слишком высокая.
И третий, самый сложный — это полноценно переводить сайты/статьи. К примеру, достаточно популярны клоны StackOverflow (у них вся база ответов выложена в открытый доступ, 400 Гб базы данных), которые даже на русском собирают миллионы трафика, и их десятки — а языков то много. Но тут разумеется нужно уже конкретно включать голову, большие объемы, нужно создавать отдельно сайт под это дело. Я например таким образом как-то спарсил все гугл.ответы, когда они объявили о закрытии, сохранив полмиллиона вопросов, которые потом вновь были проиндексированы гуглом (но тупанул и сделал это только для русской версии, тогда как там были и другие).
Опять же, лучше всего для этого подходит перевод именно с английского языка на все остальные, в крайнем случае — сначала с русского на английский, а уже потом с него на все остальные. И чем более простой текст, тем лучше — сложные статеечки с VC.ru будут переводится из рук вон плохо, и любой натив будет от них плеваться, зато какая-нибудь техническая документация, инструкции, характеристики и прочее — заходит на ура, причем гугл даже иногда корректно сохраняет аббревиатуры или оригинальные названия. Собственно, поэтому клоны стаковерфлоу и живут.
Самая сложность в том, чтобы сделать всё это читабельным. К примеру, статьи без картинок — фигня. Значит картинки в статье надо так же сохранить к себе на сервер (а не показывать с чужого, гугл такое не любит), а если у них есть альты и тайтлы — то их тоже надо перевести. Если внутри статьи есть ссылки — их надо сохранить. Если ссылки ведут на другие статьи внутри сайта — то нужно, чтобы они вели на эти же статьи но уже на нашем переведенном сайте, и ссылались с корректно переведенным названием. Про такие мелочи, как поддержка ЧПУ (чтобы у всех статей на 20 языках не было одинакового английского ЧПУ) я уже молчу. Кроме того, гугл в бесплатном варианте не умеет обрабатывать HTML код (и вставляет в теги лишние пробелы =), так что нужно вновь придумывать костыли и все это обрабатывать — в автоматическом режиме, потому что не будете же вы тысячи статей на каждом языке вычитывать.
В общем, выполнив все подобное один раз, и настроив автоматический парсинг и перевод статей (что проработало с переменным успехом еще года три), я понял, что это пздц по трудоемкости, делегировать я не умел, а чтобы сделать ПО котором сможет пользоваться непрограммист — пришлось бы угрохать еще несколько человекомесяцев работы, так что я сдался. Не то чтобы это было ошибкой — где-то через год большинство подобных сайтов слетело по фильтру FRED, однако это был далеко не конец для них. В любом случае, никаких технических препятствий для подобного нет, раз я смог — значит любой толковый программист разберется, вопрос лишь денег и ТЗ.
Что там шекели?
Оторвемся от технической части, и поговорим за денюжки. Всего у меня три подобных сайта, статейник по ИТ тематике, файловый по ИТ тематике (купленный и переписанный с нуля), и файловый в развлекательной тематике. Суммарно за три года они принесли полтора миллиона рублей, что с лихвой окупило пару месяцев на их разработку (за последний год эти три сайта в среднем приносили 80к рублей в месяц, вполне себе хорошая ЗП). Об моих сайта были развернуты на нулевых доменах, но были небольшие покупки ссылок, рандомные скорее. Монетизация только адсенсом, данные ниже — за 2021-й год. В скринах обращайте внимание не на абсолютные цифры доходности, а именно на разницу между США, РФ и другими странами, и примеряйте уже эти данные на свои ниши. Так же стоит смотреть на объем трафика как косвенный результат уровня конкуренции, учитывая, что особого внимания никому не уделялось, но тут велико влияние рандома и естественных ссылок.
Файловый #1 по ИТ тематике:
Интересный тем, что я после переделки добавил туда русскую версию, и она начала получать трафик, поэтому можно наглядно сравнить разницу доходности с рунетом. В РФ 3$ с тысячи показов страниц, в США $13, в богатых европейских странах под $20, в бедных $5-7. В скрин не попало ввиду статистической недостоверности, но Таиланд показывает те же $3, Вьетнам $1.8.
Просмотр по поддоменам не дает много инфы, но показывает размытие доходности — версию на английском кроме США посещают так же посетителеи из Индии, Пакистана и других стран, и в итоге доходность этой версии всего лишь в полтора раза больше доходности русскоязычной (иногда бывает гораздо хуже). Так же для данного сайта не стоит обращать внимания на японские и корейские версии, это аномалия (хотя изначально там так качала только японская версия), это достаточно сложные регионы.
Файловый #2 в развлекательной тематике:
Второй файловый — и да, там тоже было тонна гемороя с созданием, в том числе с тем, что оригинальный сайт на табличной верстке, сами файлы спрятаны за редиректами, надо пробиваться через mediafire и adf.ly, и выкачивать файлы с них, и архив в итоге уже 70+ Гб этих файлов, и один этот сайт 5 Тб трафика в месяц использует. И тоже уже три года автоматически парсится, качается и переводит. Тут вновь есть русскоязычная версия, и вновь видны отличия — если Турция почти в два раза отстает, то латинская америка вполне себе юзабельна, и трафика там куда больше. Китайская версия, кстати, это вовсе не Китай — это Тайвань, немного Гонконга, и куча по всем странам размыто. Для этого сайта интересней будет посмотреть не общую разбивку по странам, и не Латам (вряд ли вам интересна разница доходности между Колумбией и Перу, да и все равно везде испанский), а конкретно англоязычной версии, которая в данном случае хорошо зашла — несмотря на то, что это просто копипаст с более хорошим рубрикатором.
Как видим, разница между США/развитыми странами и СНГ/развивающимися — в 10 раз, и это действительно много. Особенно наглядно с Индией, трафика столько же, а разница в доходе — в 20+ раз. Так же интересно, что несмотря на наличие локальных версий на своих языках — многие заходят на английскую версию, однако это почти никак не отражается на доходности — то есть не важно, на каком языке сайт, реклама показывается конкретному пользователю, и языковые версии позволяют получить в 2-3 раза больше целевого трафика с нужной страны. В испаноязычной есть такие же аномалии — у заходящих из Венесуэлы доходность $0.08 с тысячи страниц, однако латиносы заходящие из США приносят те же $8 (но в целом конечно же Латам это днище хуже СНГ, но трафа много, почему бы на этом не заработать, причем страны типа Испании и Мексики вполне себе компенсируют дешевый трафик из нищих стран).
Ну и наконец третий сайт, статейник по ИТ тематики. Тут увы ценность будет пониже, оригинальная англоязычная версия не была сохранена (по очевидным причинам полного копипаста), и русской так же не было сделано. Зато в формате информационного сайта разница в доходности куда менее выраженна:
Опять же, тут не так много информации можно получить, я сам тестировал экзотичные языки, и результаты интересные. К примеру, обратите на первое место по доходу — это крошечная Венгрия с 10 млн населения, но видимо конкуренция там настолько низкая, что даже автопереводной сайт занял свою нишу, и успешно пережил фильтр гугла. Туда же — румынский. Но это скорее аномалия в том плане, что поддомены на этих языках не попали под фильтр фред, поэтому и заработали больше других, а вовсе не в том, что венгерский или румынские сайты будут приносить больше сайтов на немецком. А вот с фарси я облажался — сайт так же занял хорошие позиции в Иране, но увы, из-за санкций адсенс не работает с сайтами на фарси, так что это просто бесплатный трафик для меня (при этом что его там немало набиралось). С китайским поддоменов все аналогично предыдущему, а вот арабский думаю стоит пояснить (по факту создание сайта под арабский ничем не отличается, надо в html только флажок поставить чтобы текст шел справа налево):
В принципе, вновь, ничего удивительного — достаточно бедный, но населенный Египет (и другие африканские/бедные страны), но обеспеченные жители Саудовской Аравии, ОАЭ, Кувейта и т.д. Хотя забавнее тут видеть Германию, Швецию, Францию и другие — мультикультурализм-с) Учитывая немалый размер населения арабских стран, наличие там весьма богатых стран, а так же то, что большинство будут бояться туда лезть (даже у меня всего один такой) — мне кажется это наиболее перспективное направление.
Выводы
Главный и основной вывод — сайты не ограничиваются русским и английском языком. Затратив один раз усилия на развертывание нужной системы, вы можете получить в 10 раз больше контента с одной статьи, и даже если оно будет не так эффективно — вы можете со всех вместе получить в 2-3 раза больше трафика и денег. Для некоторых языков, если вы обратили внимания на скрины, это может быть даже выгодно делать вручную — главное не забывать о том, что хоть немецкий и французский достаточно доходны, не вы один такой умный, носителей на этих языках выше крыши, так что несмотря на бОльшую доходность — это не означает, что вы сможете получить там трафик. И, на мой взгляд, лучше получать много дешевого трафика, чем вообще не получать дорогого) К тому же, не адсенсом единым, хотя в тех же пушам расценки точно так же отличаются от страны к стране, то есть это все достаточно сильно взаимосвязано. Причем вариант «вручную» у меня даже в рунете работает, причем оно не только окупается, но и приносит хорошую прибыль, но тут нужен трастовый домен и адекватный работник.
Ключ к большому количеству трафика в этих схемах работы — это большое количество НЧ запросов, а значит страниц на сайте (с поправкой на то, чтобы гугл все таки проиндексировал ваши сайты, привет дорвейщикам). Для переводных сайтов очень важно корректно выбирать контент, который будет актуален во всем мире, и достаточно простой для перевода. Вряд ли ваши юридические статейники будут иметь какую-то ценность, будучи переведенными на другой язык. Если вы переведете фитнес-статьи из США — то остальной мир будет плеваться на футы-фунты, и такие косяки встречаются даже среди нормальных переводов книг и статей (это касается вообще всех статей, где нужно что-то измерять — рецепты например). Огородные сайты будут под бооольшим вопросом (хотите научить перуанца выращивать яблоки?). Одностраничный сервис это хорошо, но если там будет хотя бы пара десятков посадочных страниц (или хотя бы категорий-фильтров) на разных языках — это будет куда круче, даже на свежереге, а уж с дропами там вообще магия начинается. Так же некоторые вообще разнозят разные языки по разным доменам (и дропам на нужном языке), мне просто это показалось еще более трудоемким, а так может и эффективней будет (особенно для статейного типа). Вот только потом замучаетесь их в адсенс добавлять, а так основной домен добавили — все поддомены автоматом заходят (и с текущими особенностями прохождение модерации в адсенсе — едва ли не меньшая проблема, чем получение трафика)
Так же, при желании, не обязательно использовать чужой контент — вы можете писать свой, и переводить за денежку, ваше право. Помнится, парочка известных в узких кругах вебмастеров еще лет 5-7 назад перенесла конвейер статейников на польский или куда-то туда, и вообще проблем не знала с яндексом и дзеном (вплоть до YMYL). А можете забить на «СДЛьность» и просто херачить объемами (привет Думке, опять же, в узких кругах ниша давно известна), как доры — точнее, это и есть доры. Правда, одно маленькое НО — настолько в лоб оно конечно уже не работает, вы же не думаете что орда дорвещийков пропустила бы какой-то язык или какую-то нишу, и не наклепало в каждом сочетании по десятку-сотне-тысяче сайтов, что в серпе идет борьба чисто между подобными сайтами? Но дорвеи — это лишь один из способов реализации данного подхода, есть и другие, более долговечные и эффективные.
(со временем не только начинаешь узнавать флаги кучи стран, но и с первого взгляда определяешь язык по простыне текста)
Более того, в некоторых нишах заморачиваться с языками смысла нет. Если вся ваша ЦА говорит на английском, например. То есть надо еще включать голову, и научиться думать, как венгр, как араб, как индонезиец, как перуанец) Глобальные тренды и различия вообще очень интересно анализировать, к примеру, не только в России есть второй поисковик в виде Яндекса. Хотя, конечно, подобной аналитикой куда удобней заниматься арбитражными инструментами, а не сайтами — но вот я вам принес немного данных из сайтов =)
Как это можно использовать — смотрите сами. На телдери такие сайты изредка попадаются (собственно, оттуда я и получил первый опыт с такими сайтами, а после изучения как оно сделано и сколько приносит — начал пытаться сделать сам). И нет, никаких услуг я не оказываю, за скрипты не подскажу, в сеошные споры влазить не собираюсь (почти все международные head of seo плотно работают с мультиязычностью сайтов, практический каждый сайт которым вы пользуетесь имеет версии на десятках языках, и они там реально целый огород граблей уже съели, и если хочется плотнее погрузится — изучайте их опыт. Я как-то более приземленный, как вижу так и делаю, мне моей копеечки хватает). Я вообще тихо сижу примус починяю) А теперь и вы знаете один из вариантов, куда можно из статейников метнуться.