2 feb. 2023
Утечка исходного кода всех сервисов Яндекса

25 января состоялась крупнейшая в истории рунета утечка — в общем доступе оказались более 44 Гб исходных кодов сервисов Яндекса. Утечка произошла не в результате взлома, один из сотрудников, вероятно уже бывших и покинувших страну, скопировал и вынес на флешке срез главного монорепозитория компании. Актуальность программного кода датируется приблизительно серединой лета 2022 г.

Это что же, теперь весь Яндекс взломают?

Несмотря на то, что утечка затрагивает почти все сервисы Яндекса, пока рано говорить о катастрофических последствиях. Ничего представляющего критическую опасность для безопасности пока не нашли, однако и приятного для компании и ее пользователей мало. В любом случае, обладание исходным кодом существенно упростит хакерам и пентестерам задачу поиска уязвимостей нулевого дня. Пока что из найденного в исходниках самое чувствительное с точки зрения безопасности — информация о внутреннем устройстве сетевой инфраструктуры сервисов. Учитывая, что поиски потенциальных уязвимостей продолжаются силами тысяч людей, вероятность что там найдется что-то посерьезнее, довольно велика.

SEOшники ликуют

А вот на чьей улице уже праздник, так это SEO-специалисты. Раньше о влиянии факторов ранжирования поисковой выдачи приходилось догадываться буквально методом научного тыка, предположения проверялись лишь эмпирически — через наблюдение за последствиями внесенных изменений. В некотором роде это граничило с шаманизмом и порождало немало легенд и суеверий, то теперь появилась возможность изучить, как они работают под капотом на самом деле. Это очень быстро дало свои плоды.

Типичный SEO-специалист до утечки исходных кодов ЯндексаТипичный SEO-специалист до утечки исходных кодов Яндекса

Выяснилось что огромное количество оскорбительных запросов, касающихся известных людей, по забавному совпадению являющихся политиками, специальным образом видоизменяются в тайне от пользователей, чтобы исключить результаты, где упоминались бы эти люди. Но, самое главное, удалось выявить десятки неочевидных факторов ранжирования поисковой выдачи. Рассмотрим наиболее любопытные и неочевидные.

1. Персональный фактор ранжирования для Википедии

Оказывается, ссылки с Википедии для Яндекса имеют настолько большое значение, что для нее выделили целый отдельный фактор.

2. На ранжирование влияет как органический, так и платный трафик

А точнее их соотношение. Его необходимо тщательно отслеживать. Преобладание платного трафика способно навредить позициям, преобладание же органического трафика влияет на них благоприятно.

3. Фактор случайности

Да есть и такой — случайный коэффициент, влияющий на ранжирование. Если вы замечали внезапные резкие колебания позиций без каких-либо объяснимых причин, вполне возможно, что повлиял именно он. По всей видимости, он был введен для проверки поведенческих факторов.

4. Цифры в адресах страниц могут быть вредны

Удивительно, на наличие цифр в URL может негативно повлиять на ранжирование страницы.

5. Чрезмерная оптимизация

Яндекс умеет определять попытки обмана системы чрезмерной оптимизацией, поэтому, если вы, начитавшись SEO-форумов с упорством достойным лучшего применения ринулись бездумно применять эти практики, это вполне может сыграть в минус. В поисковой оптимизации важна умеренность и естественность. Пишите качественные материалы для людей, робот это тоже оценит.

6. Хорошие позиции имеют кумулятивный эффект

Если у сайта уже есть хорошие позиции по каким-то запросам, это благоприятно влияет на позиции по другим запросам.

7. Поведенческие факторы имеют огромное значение

Сила влияния поведенческих факторов известна давно. Подтвердилось, что Яндекс учитывает не только поведение пользователя, но большое значение имеет и то, что пользователь возвращается на сайт или перестает искать то, что искал после визита на него. В последнем случае система предполагает, что пользователь нашел на вашем сайте искомое, а, значит, относиться к такому сайту следует лучше.

8. Очевидные факторы

Лишний раз подтвердились и очевидные вещи: высокое качество контента и стабильность работы сайта на ранжирование влияют благоприятно, а низкое качество наполнения и перебои в работе — наоборот. При этом низкокачественные статьи отрицательно влияют на весь домен. Одним словом, хорошие сайты делайте, а плохие — не делайте.

Беспроигрышная стратегия продвижения сайтаБеспроигрышная стратегия продвижения сайта

А можно ли из этих исходников собрать свой Яндекс?

Утекшие исходные коды годятся преимущественно для изучения. Собрать и запустить у себя копии этих сервисов — задача нетривиальная и часто требует внутренней инфраструктуры Яндекса, поэтому маловероятно, что у многих это получится. В проектах, использующих нейросети, отсутствует самое главное — натренированные веса и датасеты, на которых ее можно было бы обучить. То есть даже если у кого-то каким-то чудом получится запустить эти сервисы, модели в них не будут обучены, а потому корректно работать они все равно не смогут. Попытки же использования частей этого кода в коммерческих проектах обречены на провал. Это, вероятно, довольно быстро будет обнаружено и повлечет серьезные многомиллионные иски.