1 этап - Сбор данныхПредставим, что в одном из интернет-магазинов вы положили товар в корзину. Информация об этом отправляется в несколько модулей системы:
Это место, где хранится информация в её исходном, неупорядоченном виде
без какой-либо предварительной обработки или структурирования.
Оно хранит
сырые события— «как было». Каждое действие фиксируется отдельно: «добавил товар A5678», «удалил товар B1234», «оформил заказ».
Аналогия: склад, где лежат все накладные по каждой покупке за годы.
- Онлайн-хранилище быстрых признаков
Хранит
агрегаты и признаки— «состояние на сейчас». Там данные уже обработаны:
- «в корзине 3 товара»,
- «последняя категория — электроника»,
- «среднее время просмотра карточки товара — 12 секунд».
Это место откуда алгоритм берёт свежую информацию прямо во время показа блока «вам может понравиться».
Аналогия: это как блокнот рядом с кассой, куда продавец записывает последние покупки клиента
Это система, частью которой является онлайн-хранилище быстрых признаков. В данной системе информация о добавлении в корзину обновляет
профиль пользователя: сколько он тратит, какие категории выбирает, как часто кладёт товары, но не покупает.
Аналогия: как в личной медицинской карте обновляется новый симптом, чтобы врач видел картину целиком.
Это набор алгоритмов (математическая модель), которая живет внутри рекомендательной системы. Наше событие (добавление товара в корзину) попадает
в очередь для пересчёта или до-обучения модели.
Система собирает сотни миллионов таких событий и учится понимать закономерности: «Кто берёт смартфон → часто берёт и наушники».
- Система экспериментов (A/B-тесты)
Это система решает, какой части пользователей показать результаты от старой рекомендательной модели, а какой — от новой.
Модели могут гнаться за кликами, но при этом снижать удовлетворённость: пользователь кликает, но уходит разочарованным.Система экспериментов позволяет проверять
не только точность предсказаний, но и реальное влияние на бизнес.
- Мониторинг качества данных
Данная система проверяет, нет ли «аномалий»: вдруг количество событий резко выросло, или все товары одной категории попали в корзины — это может быть баг
или спам.
Системы собирают два типа информации:
- Явные сигналы. Это то, что пользователь осознанно сообщает системе (оценка фильма, лайки в посте, добавление товара в избранное)
- Неявные сигналы. Это - косвенные признаки из поведения: сколько времени провели на странице, в какой последовательности кликали, как часто возвращаются к контенту.