Article

Как Machine Learning превращает отзывы в рыночные данные

Метод верифицированного следа, 90% точности прогнозов и полная прозрачность методологии.

MLKaspiData ScienceМетодология8 мин
Мадияр Хамзанов
Мадияр Хамзанов
13 февраля 2026

Ключевые метрики

90%
Точность модели
на тестовых данных
6 мес
Горизонт прогноза
вперёд
0
Персональных данных
не собираем
OSINT
Метод сбора
открытые источники

Я разработал RedStat — аналитическую платформу, которая превращает публичные отзывы покупателей Kaspi Магазин в структурированные рыночные данные: объёмы продаж, тренды категорий и прогнозы спроса. Без доступа к внутренним API маркетплейса. Без персональных данных. Только математика и машинное обучение.

По данным Kaspi.kz, маркетплейс обслуживает более 14 миллионов активных покупателей в Казахстане. Это делает базу отзывов статистически значимой — достаточной для построения надёжных ML-моделей.

Ключевая идея: на Kaspi отзыв может оставить только верифицированный покупатель. Это значит, что каждый отзыв — это подтверждённая покупка. А значит, из отзывов можно восстановить объёмы продаж. Аналогичный принцип описан в исследовании McAuley et al. (2016) про использование отзывов как сигналов о реальном спросе.

Почему это работает

Kaspi — уникальная площадка. В отличие от Amazon или Wildberries, где отзывы может оставить кто угодно, на Kaspi действует строгая система верификации: отзыв = покупка.

Исследования Chevalier & Mayzlin (2006) в Journal of Marketing Research показали: количество отзывов напрямую коррелирует с объёмами продаж. На Kaspi эта корреляция ещё сильнее — ведь каждый отзыв верифицирован транзакцией через Kaspi Pay.

Верифицированные покупатели
Только те, кто реально купил товар через Kaspi, могут оставить отзыв. Нет фейков.
Привязка к транзакции
Каждый отзыв привязан к конкретному заказу. Один заказ — один отзыв. Нельзя накрутить.
Стабильная конверсия
Доля покупателей, оставляющих отзывы, стабильна в рамках категории — это и есть ключ к расчёту.
Если вы знаете, сколько отзывов появилось за месяц, и знаете конверсию «покупка → отзыв» для категории — вы знаете объём продаж.
Автор, Принцип метода верифицированного следа, RedStat

Data Pipeline

Весь процесс от сырых данных до готовой аналитики проходит через 5 этапов. Каждый этап автоматизирован и воспроизводим. Pipeline построен на Python с использованием scikit-learn и Hugging Face Transformers для NLP-задач.

Путь данных: от отзыва до прогноза
Сбор
Публичные отзывы и карточки товаров с Kaspi
Очистка
Дедупликация, нормализация, валидация дат
ML-обогащение
Классификация, извлечение сущностей, скоринг
Прогноз
Временные ряды, сезонность, тренды
Аналитика
Дашборды, API, отчёты для селлеров

Для прогнозирования временных рядов RedStat использует подход, аналогичный Facebook Prophet — модели с явным учётом сезонности и праздничных эффектов. Для обработки текста отзывов применяется ruBERT — русскоязычная версия BERT от Google.

Полная автоматизация: от момента появления нового отзыва на Kaspi до обновления прогноза проходит менее 24 часов. Без ручного вмешательства.

Метод верифицированного следа

Метод строится на простой, но мощной идее: каждый верифицированный отзыв — это след реальной покупки. Зная соотношение отзывов к покупкам (конверсию), мы восстанавливаем полную картину продаж. Академическое обоснование подхода — в работе Anderson & Magruder (2012) в NBER, которая показала, что рейтинги и количество отзывов на ресторанных платформах точно предсказывают загруженность. На Kaspi связь ещё прямее — нет анонимных отзывов.

Шаг 1
Сбор верифицированных отзывов
Собираем все публичные отзывы с датами. На Kaspi каждый отзыв — это подтверждённая покупка, привязанная к заказу.
Шаг 2
Калибровка конверсии по категориям
Для каждой категории рассчитываем коэффициент конверсии «покупка → отзыв» на основе исторических данных и контрольных выборок.
Шаг 3
Восстановление объёмов продаж
Делим количество отзывов на конверсию категории. Получаем оценку реальных продаж с точностью до ±10%.

Конверсия «покупка → отзыв» по категориям

КатегорияКонверсияНадёжность
Электроника7.2%Высокая
Бытовая техника5.8%Высокая
Детские товары6.2%Высокая
Красота и здоровье4.5%Средняя
Спорт и отдых4.0%Средняя
Одежда и обувь3.1%Низкая

Электроника и бытовая техника показывают наибольшую конверсию — покупатели дорогих товаров чаще оставляют отзывы. Это согласуется с исследованием Duan et al. (2008) в Journal of Interactive Marketing: высокая цена товара стимулирует покупателя поделиться опытом. Одежда — наименьшую, что типично для fashion-категорий на любом маркетплейсе.

Machine Learning: 90% точности

Модель RedStat обучена на 68 400+ верифицированных примерах — товарах, для которых мы знаем реальные продажи через партнёров-селлеров и можем сверить с нашей оценкой. Архитектура использует градиентный бустинг (аналог XGBoost) для числовых признаков и BERT-embeddings для текстовых признаков отзывов.

Июль 2025 — старт78%
Октябрь 202586%
Январь 2026 — текущая90%
ПериодТочностьОбучающая выборка
Июль 202578%12 400
Октябрь 202586%35 100
Январь 202690%68 400

Для оценки качества NLP-классификации используется метрика ROC AUC. Для оценки точности прогнозов объёмов продаж — MAPE (Mean Absolute Percentage Error), стандарт для задач прогнозирования временных рядов.

Почему точность растёт? Больше данных = лучше калибровка конверсионных коэффициентов. Каждый месяц мы получаем новые подтверждённые данные от партнёров и дообучаем модель. Для оценки качества классификации используется ROC AUC — стандартная метрика для задач классификации. Принцип постепенного улучшения описан в концепции continual learning.

Прогнозирование

Модель прогнозирования учитывает три ключевых фактора, которые определяют будущий спрос в каждой категории. Подход основан на декомпозиции временного ряда на тренд, сезонность и остаток — классический метод STL-decomposition (Seasonal and Trend decomposition using Loess).

Сезонность
Годовые циклы спроса: Kaspi Жұма, Новый год, 8 марта, back-to-school. Модель выучила паттерны за 3+ года.
Тренды
Растущие и падающие категории. Электросамокаты растут x3/год, пауэрбанки стагнируют. Модель видит это.
Конкуренция
Количество активных продавцов, новые входы в нишу, ценовые войны. Всё влияет на долю каждого селлера.

Факт vs Прогноз (агрегат по топ-категориям)

ПериодФактПрогнозОтклонение
Сен 2025₸1.2B₸1.15B4.2%
Окт 2025₸1.4B₸1.38B1.4%
Ноя 2025₸2.1B₸2.25B7.1%
Дек 2025₸2.8B₸2.65B5.4%
Янв 2026₸0.9B₸0.95B5.6%
Фев 2026₸1.1B
Мар 2026₸1.3B
Средняя ошибка прогноза: 4.7% на проверенных месяцах (Сен 2025 — Янв 2026). Это сопоставимо с точностью внутренней аналитики крупных ритейлеров (McKinsey оценивает среднюю ошибку розничных прогнозов в 5-15%).

Методология RedStat полностью соответствует Закону РК «О персональных данных и их защите». Сбор публичных данных методом веб-скрапинга является легальным в большинстве юрисдикций (решение по делу hiQ Labs v. LinkedIn, 2022). Три правовых основания и три этических принципа:

Закон о ПД
0 персональных данных
Не собираем имена, телефоны, email. Только агрегированная статистика отзывов.
OSINT
Открытые источники
Все данные публичны на Kaspi.kz. Любой пользователь видит отзывы и рейтинги. Это OSINT.
ИС
Интеллектуальный продукт
Ценность в ML-моделях и прогнозах, не в сырых данных. Результат интеллектуальной деятельности.
Принципы: не публикуем данные отдельных продавцов, открыто описываем методологию, ограничиваем частоту запросов. Не обходим robots.txt и не создаём повышенной нагрузки. Следуем стандарту RFC 9309 для парсеров robots.txt.

Итог

Метод верифицированного следа — это не магия и не хакинг. Это математика, построенная на уникальной особенности Kaspi. Я создал RedStat как инструмент для тех, кто хочет принимать решения на основе данных, а не интуиции — в одном из самых быстрорастущих e-commerce рынков Центральной Азии. По данным Statista, объём казахстанского e-commerce рынка превысил $3 млрд в 2025 году.

Отзывы = покупки
Верифицированная система Kaspi делает каждый отзыв подтверждённым следом реальной транзакции. Это фундамент метода.
ML даёт 90% точности
68 400+ обучающих примеров, постоянная калибровка по реальным данным партнёров. Точность растёт каждый месяц.
6 месяцев вперёд
Прогнозирование с учётом сезонности, трендов и конкуренции. Средняя ошибка — 4.7% на проверенных данных.
100% легально
Нет персональных данных, нет взлома, нет обхода защиты. Открытые источники + интеллектуальная обработка.
Это только начало. Метод верифицированного следа применим к любому маркетплейсу с верифицированными отзывами. Kaspi — первый, но не последний. На основе этих данных строятся аналитики индекса Джини по нишам и ценовой сегментации. Методология RedStat открыта для обсуждения — я публикую детали подхода здесь, в блоге.
Мадияр Хамзанов
Мадияр Хамзанов
mkhamzanov.com

Все статьи

Блог
AI — алый океан: продай меня, если сможешь23 мар. 2025 г.
SaaS — это новая Tilda: почему строить стартап в 2026 бессмысленно23 мар. 2026 г.
Парадокс автоматизации: почему ИИ заставляет нас работать больше23 мар. 2026 г.
Как llms.txt увеличил трафик с AI-чатов на 23%23 мар. 2026 г.
География определяет профессию: почему в Казахстане все дороги ведут в банк23 мар. 2026 г.
AI Adoption в разработке: США vs Казахстан и Россия23 мар. 2026 г.
AI для продаж: пузырь Whisper-обёрток или реальный бизнес?23 мар. 2026 г.
Пока ты спишь — агенты должны работать23 мар. 2026 г.
Где железо, Зина? Суперкомпьютер Казахстана и 512 GPU, которые никто не видел22 мар. 2026 г.
Не говори кто ты. Покажи свой usage в Claude Code.21 мар. 2026 г.
Дай мне свой GitHub — и я скажу, кто ты21 мар. 2026 г.
AI в казахстанских банках: инновации или театр для президента?21 мар. 2026 г.
Почему Казахстан никогда не создаст свою LLM21 мар. 2026 г.
Казахстанские стартапы 2020-х: почему модель «фаундер-звезда + кодер-лох» сдохла21 мар. 2026 г.
Два лагеря разработчиков. Оба неправы.21 мар. 2026 г.
ROC AUC всему голова: главная метрика ранжирования21 мар. 2026 г.
Рынок AI в Казахстане схлопнется, когда туда залетят миллионники21 мар. 2026 г.
Рынок чат-ботов: пузырь домохозяек или реальный бизнес?21 мар. 2026 г.
Код стоит $200 в месяц. Разработчик — нет.21 мар. 2026 г.
Солопренёрство × AI: красивая иллюзия или новый дотком-пузырь?21 мар. 2026 г.
Claude Code + Telegram: как управлять AI-агентом с телефона21 мар. 2026 г.
Феномен вайбкодинга: почему Маргулан Сейсембаев создаёт продукты без программистов21 мар. 2026 г.
Казахстанский венчур: $2.6 млрд мечтаний и одна реальность21 мар. 2026 г.
Kaspi Жұма 2026: Когда, как подготовиться и стоит ли участвовать?14 февр. 2026 г.
Индекс Джини и Парето: Почему один забирает всё?13 февр. 2026 г.