Алгоритм знает тебя лучше, чем ты думаешь: как работают рекомендательные алгоритмы Netflix, Spotify и Яндекса

Разобраться • 30 марта 2026

Алгоритмы знают вас лучше, чем вы сами. Что у систем рекомендаций «под капотом» и почему надо быть осторожнее с любимыми сервисами

Алгоритмы знают вас лучше, чем вы сами. Что у систем рекомендаций «под капотом» и почему надо быть осторожнее с любимыми сервисами

Автор: Григорий Щеглов

Обложка: Unsplash (фото 1, фото 2, фото 3)

Когда мы листаем ленту социальных сетей или музыкальные рекомендации, создается ощущение, что сервис читает мысли или подслушивает вас. На самом деле в этом нет никакой магии. Но одновременно все устроено гораздо интереснее. Рекомендательные системы — один из самых сложных и дорогостоящих технологических продуктов в современной индустрии, от которого напрямую зависит выручка компаний. Цена ошибки в лучшем случае — потерянный вечер пользователя, в худшем — его отписка. «Инк» разбирается, как работают алгоритмы, почему иногда знают нас лучше, чем хотелось бы, и стоит ли быть осторожнее с желаниями.

Три слоя данных

Чтобы что-то рекомендовать, системе нужно вас понять. Для этого платформы собирают данные трех принципиально разных типов.

Явные

Это ваши оценки, лайки, добавления в плейлист, отметки «не интересно». Пользователь сам сообщает системе свои предпочтения.

Казалось бы, это самый надежный источник, но в реальности он наименее ценный, потому что люди оценивают контент непоследовательно, забывают, что смотрели, и ставят оценки настроенчески.

Поведенческие

Системе важно не что вы говорите, а что делаете: сколько времени вы смотрели ролик до того, как его закрыли; в каком месте поставили на паузу; переслушивали ли песню; как быстро перелистнули карточку.

Netflix, например, фиксирует не просто факт просмотра, а скорость, с которой вы нажимали «следующий эпизод». TikTok отслеживает, сколько секунд вы задержались на каждом видео, даже не взаимодействуя с ним.

Контекстные

Время суток, день недели, устройство, с которого вы заходите, и даже ваше текущее местоположение. С конца 2024 года стриминги тестируют еще один инструмент — языковые модели для генерации гиперперсонализированных описаний контента. Идея в том, что один и тот же фильм получает разные аннотации для разных пользователей: один увидит акцент на психологическом напряжении, другой — на семейной драме.

Вадим Кондаратцев

руководитель департамента ИИ и анализа данных «Фрифлекс»

«Явные оценки (лайки, звезды) страдают от двух проблем: их мало и они смещены. Пользователь ставит оценку одному контенту из ста потребленных, и чаще оценивает то, что вызвало сильную эмоцию — положительную или отрицательную. Это создает сильную предвзятость при отборе. Такие данные, как время прослушивания, пропуски, повторные возвращения к контенту и скорость перемотки дают несравнимо более плотный и честный сигнал. Netflix, к примеру, давно перешел от пятибалльных рейтингов к бинарной оценке и во многом опирается именно на поведенческие данные, потому что они лучше предсказывают реальную ситуацию».

То, что пользователь воспринимает как мгновенную рекомендацию, стоит огромных вычислительных ресурсов. Обучение моделей и обработка запросов в реальном времени требуют сложной инженерной инфраструктуры и серьезных вычислительных мощностей. При этом данные, на которых обучаются системы, часто разрозненны и поступают из разных источников в разных форматах, и именно их качество в конечном счете определяет качество рекомендаций.

Именно поэтому для среднего бизнеса и региональных сервисов строить рекомендательную систему с нуля не имеет смысла: проще и дешевле использовать готовые платформенные решения.

Создать инфраструктуру уровня «Яндекса» с нуля — задача, доступная лишь компаниям с многомиллиардными бюджетами на исследования и разработку.

Что происходит «под капотом» алгоритмов

Собранные данные поступают в алгоритмы, работающие по двум базовым принципам, комбинация которых и формирует то, что вы видите на экране.

Коллаборативная фильтрация — это подход «люди, похожие на тебя, смотрели вот это». Алгоритм находит пользователей с похожими паттернами поведения и предполагает, что вам понравится то, что понравилось им. Математически это задача вычисления близости векторов. Каждый пользователь представлен набором чисел (его оценки, время просмотра, история), и алгоритм ищет, чьи числа ближе всего к вашим.

Контентная фильтрация работает иначе: система анализирует характеристики самого контента. Жанр, режиссер, актеры, темп, тональность, год выпуска. Если вы посмотрели несколько научно-фантастических фильмов с Райаном Гослингом, алгоритм может рекомендовать другие фантастические картины с его участием — даже если никто из похожих на вас пользователей их еще не видел.

Вячеслав Дегтярев

руководитель по развитию продуктовых решений «К2 НейроТех»

«Современные рекомендательные системы — это сложные многослойные архитектуры, которые решают задачу баланса между сиюминутными интересами пользователя и долгосрочным удержанием его внимания. Если посмотреть “под капот” того, как устроены рекомендации в Netflix, Spotify или “Яндекс. Музыке”, мы увидим классическую задачу машинного обучения: предсказать, какой контент с наибольшей вероятностью понравится конкретному пользователю в данный момент. Но за этой простой формулировкой скрывается многослойный технологический стек.

Важно понимать, что качество рекомендаций напрямую зависит от объема и разнообразия данных, которыми располагает платформа. Именно поэтому крупные игроки, такие как VK, активно развивают партнерские программы и экосистемные интеграции — чем больше сервисов делятся данными о поведении пользователей, тем точнее и глубже становятся рекомендации в каждом из них»

На практике архитектура рекомендательной системы крупного стриминга — это конвейер из нескольких этапов.

Сначала система собирает и обрабатывает сигналы. Затем из миллионного каталога выделяются сотни или тысячи потенциально релевантных единиц контента, где работают сравнительно легкие модели. После этого отобранные кандидаты проходят через более тяжелые модели ранжирования. Наконец, поверх результатов работает слой бизнес-логики: продвижение нового контента, баланс-жанров, лицензионные ограничения.

Вячеслав Лобозов

директор по развитию Touch Instinct

«Самая сложная часть не модель, а совмещение разнородных сигналов в единую картину. Поведение пользователя, метаданные контента, социальный граф, контекст — все это нужно объединить так, чтобы рекомендация была точной и уместной в конкретный момент. В “Моей волне” “Яндекс Музыки” одновременно учитывается более тысячи факторов. Это хорошо показывает масштаб задачи и цену ошибки на любом этапе конвейера. В лучшем случае это потерянный вечер пользователя, в худшем — его отписка».

В России рынок рекомендательных систем развивается по той же логике, что и глобальный, с рядом важных отличий.

Главный игрок — «Яндекс» с его огромным количеством сервисов: это «Яндекс. Музыка», «Кинопоиск», «Яндекс. Плюс», поиск, такси, доставка еды. Все они связаны между собой, и данные из одного сервиса могут обогащать рекомендации в другом.

VK пошел тем же путем: «Одноклассники», «VK Музыка», «VK Видео». Как отмечает Вячеслав Дегтярев, «чем больше сервисов экосистемы делятся данными о поведении пользователей, тем точнее и глубже становятся рекомендации в каждом из них».

Обратная сторона персонализации

Рекомендательные системы собирают данные — и эти данные утекают. В 2020 году хакеры получили доступ к 350 млн аккаунтов Spotify: логины, пароли, адреса электронной почты оказались в открытом доступе. Netflix неоднократно становился целью фишинговых атак, в ходе которых похищались платежные данные пользователей. Российские сервисы не исключение: в 2022–2023 гг. в сеть утекли базы «Яндекс. Еды» и СДЭК с подробной информацией о миллионах клиентов.

Но утечки не единственный риск. Данные, которые платформы собирают о вас, могут передаваться третьим лицам: рекламным сетям, брокерам данных, партнерским сервисам. Формально это прописано в пользовательских соглашениях, которые никто не читает. Фактически это означает, что ваш поведенческий профиль — какой жанр музыки вы слушаете в понедельник утром, какие сериалы смотрите после полуночи — может быть продан десяткам компаний, о существовании которых вы не подозреваете. О том, сколько стоят ваши данные и кто на них зарабатывает, мы подробно писали в отдельном материале.

Отсюда берется и кажущаяся щедрость платформ: полубесплатные подписки, промокоды, партнерские акции с банками. Выгода для компании довольно прозрачная: бесплатный пользователь, который смотрит рекламу, ценнее платного, потому что дает данные, недоступные в обычном режиме.

Почему алгоритм иногда ошибается

Главная проблема рекомендательных систем — неполнота данных. Даже у Netflix с сотнями миллионов пользователей каждый конкретный человек посмотрел ничтожно малую долю от общего каталога. Алгоритм вынужден делать выводы на основе неполной картины.

Кроме того, системы обучаются на прошлом поведении и хуже справляются с изменениями вкусов. Вы посмотрели несколько документальных фильмов про спорт — и сервис начинает рекомендовать только их, хотя вы просто были в таком настроении. Пройдет некоторое время, прежде чем алгоритм скорректирует модель.

Впрочем, если вы «испортили» свои рекомендации, переживать не стоит, ведь они поддаются коррекции, если знать, как с ними работать.

Регулярно чистите историю. Во многих популярных сервисах есть настройки, позволяющие удалить историю просмотров и прослушиваний. После этого алгоритм начинает строить профиль заново и у вас появляется шанс «переобучить» его в нужную сторону. Распространенный совет использовать VPN, чтобы «обмануть» алгоритм, сменив геолокацию, от поведенческого профиля не спасет — алгоритм следит за тем, что вы делаете, а не откуда заходите.

Используйте явные сигналы. Лайки, оценки, добавления в плейлист работают. Если вы хотите видеть меньше определенного контента, отмечайте его как нежелательный — большинство платформ реагируют на это быстро.

Намеренно выходите за рамки привычного. Послушайте жанр, который вы никогда не слушали. Посмотрите что-то из чужих рекомендаций. Алгоритм обучается на вашем поведении: если вы сами расширяете горизонты, он начнет делать то же самое.

Вадим Кондаратцев

руководитель департамента ИИ и анализа данных «Фрифлекс»

«Труднее всего не построить модель, а правильно поставить задачу и организовать инфраструктуру вокруг нее. Наибольшая сложность сосредоточена на стыке этапов: как правильно определить целевую метрику, которая отражает долгосрочное удовлетворение пользователя, а не только сиюминутный клик; как выстроить обратную связь, чтобы система не замыкалась в фильтровом пузыре, и как обеспечить воспроизводимость и скорость при масштабе в десятки миллионов пользователей и запросов в реальном времени».

Одна из самых критикуемых характеристик рекомендательных систем — создание так называемых пузырей фильтров. Алгоритм все точнее предсказывает, что вам нравится, и постепенно сужает ваше информационное пространство. Вы перестаете сталкиваться с непривычными идеями, другими точками зрения, неожиданными открытиями. Так и происходит переход от безобидного ролика до конспирологического контента за пять-семь кликов. Каждый следующий ролик чуть более эмоционально заряженный, чем предыдущий, потому что именно такой контент удерживает внимание дольше.

Платформы осознают эту проблему. Именно поэтому в алгоритмах намеренно оставляют пространство для «исследовательских» рекомендаций. В них система идет на риск и предлагает что-то за пределами привычного профиля.

Вячеслав Дегтярев

руководитель по развитию продуктовых решений «К2 НейроТех»

«В “Яндексе” эту дилемму называют балансом между безопасными и исследовательскими рекомендациями. Безопасные — те, что с высокой вероятностью понравятся пользователю; исследовательские — это риск, который помогает пользователю открывать новое. Оба типа нужны, иначе система либо надоест однообразием, либо будет казаться непредсказуемой».

Вячеслав Лобозов

директор по развитию Touch Instinct

«Свежие академические исследования, посвященные “алгоритмическому дрейфу”, показывают, что рекомендации могут со временем менять предпочтения пользователя. При этом алгоритмы чаще усиливают существующие паттерны потребления, чем радикально меняют или ломают их».

Главный вопрос — где проходит граница между «помочь открыть новое» и «запереть в пузыре похожего контента».

Темы

2026 ИИ технологии