Ключевые метрики
Я разработал RedStat — аналитическую платформу, которая превращает публичные отзывы покупателей Kaspi Магазин в структурированные рыночные данные: объёмы продаж, тренды категорий и прогнозы спроса. Без доступа к внутренним API маркетплейса. Без персональных данных. Только математика и машинное обучение.
По данным Kaspi.kz, маркетплейс обслуживает более 14 миллионов активных покупателей в Казахстане. Это делает базу отзывов статистически значимой — достаточной для построения надёжных ML-моделей.
Почему это работает
Kaspi — уникальная площадка. В отличие от Amazon или Wildberries, где отзывы может оставить кто угодно, на Kaspi действует строгая система верификации: отзыв = покупка.
Исследования Chevalier & Mayzlin (2006) в Journal of Marketing Research показали: количество отзывов напрямую коррелирует с объёмами продаж. На Kaspi эта корреляция ещё сильнее — ведь каждый отзыв верифицирован транзакцией через Kaspi Pay.
Если вы знаете, сколько отзывов появилось за месяц, и знаете конверсию «покупка → отзыв» для категории — вы знаете объём продаж.
Data Pipeline
Весь процесс от сырых данных до готовой аналитики проходит через 5 этапов. Каждый этап автоматизирован и воспроизводим. Pipeline построен на Python с использованием scikit-learn и Hugging Face Transformers для NLP-задач.
Для прогнозирования временных рядов RedStat использует подход, аналогичный Facebook Prophet — модели с явным учётом сезонности и праздничных эффектов. Для обработки текста отзывов применяется ruBERT — русскоязычная версия BERT от Google.
Метод верифицированного следа
Метод строится на простой, но мощной идее: каждый верифицированный отзыв — это след реальной покупки. Зная соотношение отзывов к покупкам (конверсию), мы восстанавливаем полную картину продаж. Академическое обоснование подхода — в работе Anderson & Magruder (2012) в NBER, которая показала, что рейтинги и количество отзывов на ресторанных платформах точно предсказывают загруженность. На Kaspi связь ещё прямее — нет анонимных отзывов.
Конверсия «покупка → отзыв» по категориям
| Категория | Конверсия | Надёжность |
|---|---|---|
| Электроника | 7.2% | Высокая |
| Бытовая техника | 5.8% | Высокая |
| Детские товары | 6.2% | Высокая |
| Красота и здоровье | 4.5% | Средняя |
| Спорт и отдых | 4.0% | Средняя |
| Одежда и обувь | 3.1% | Низкая |
Электроника и бытовая техника показывают наибольшую конверсию — покупатели дорогих товаров чаще оставляют отзывы. Это согласуется с исследованием Duan et al. (2008) в Journal of Interactive Marketing: высокая цена товара стимулирует покупателя поделиться опытом. Одежда — наименьшую, что типично для fashion-категорий на любом маркетплейсе.
Machine Learning: 90% точности
Модель RedStat обучена на 68 400+ верифицированных примерах — товарах, для которых мы знаем реальные продажи через партнёров-селлеров и можем сверить с нашей оценкой. Архитектура использует градиентный бустинг (аналог XGBoost) для числовых признаков и BERT-embeddings для текстовых признаков отзывов.
| Период | Точность | Обучающая выборка |
|---|---|---|
| Июль 2025 | 78% | 12 400 |
| Октябрь 2025 | 86% | 35 100 |
| Январь 2026 | 90% | 68 400 |
Для оценки качества NLP-классификации используется метрика ROC AUC. Для оценки точности прогнозов объёмов продаж — MAPE (Mean Absolute Percentage Error), стандарт для задач прогнозирования временных рядов.
Прогнозирование
Модель прогнозирования учитывает три ключевых фактора, которые определяют будущий спрос в каждой категории. Подход основан на декомпозиции временного ряда на тренд, сезонность и остаток — классический метод STL-decomposition (Seasonal and Trend decomposition using Loess).
Факт vs Прогноз (агрегат по топ-категориям)
| Период | Факт | Прогноз | Отклонение |
|---|---|---|---|
| Сен 2025 | ₸1.2B | ₸1.15B | 4.2% |
| Окт 2025 | ₸1.4B | ₸1.38B | 1.4% |
| Ноя 2025 | ₸2.1B | ₸2.25B | 7.1% |
| Дек 2025 | ₸2.8B | ₸2.65B | 5.4% |
| Янв 2026 | ₸0.9B | ₸0.95B | 5.6% |
| Фев 2026 | — | ₸1.1B | — |
| Мар 2026 | — | ₸1.3B | — |
Легальность и этика
Методология RedStat полностью соответствует Закону РК «О персональных данных и их защите». Сбор публичных данных методом веб-скрапинга является легальным в большинстве юрисдикций (решение по делу hiQ Labs v. LinkedIn, 2022). Три правовых основания и три этических принципа:
Итог
Метод верифицированного следа — это не магия и не хакинг. Это математика, построенная на уникальной особенности Kaspi. Я создал RedStat как инструмент для тех, кто хочет принимать решения на основе данных, а не интуиции — в одном из самых быстрорастущих e-commerce рынков Центральной Азии. По данным Statista, объём казахстанского e-commerce рынка превысил $3 млрд в 2025 году.