Назад к курсу
АкадемияData Analytics + AIНеделя 5Gradient Boosting: CatBoost, XGBoost, LightGBM
Урок 45Неделя 52.5 часа

Gradient Boosting: CatBoost, XGBoost, LightGBM

Король ML-соревнований и продакшн-моделей

0.91CatBoost

ROC AUC churn

80%boosting

Kaggle побед

10+Forte

Моделей в проде

GPUfast

Ускорение CatBoost

AI Insight

CatBoost в Forte Bank: churn prediction ROC AUC = 0.91, 10 моделей в продакшне. На Kaggle градиентный бустинг выигрывает 80% соревнований с табличными данными.

Ключевые темы

Gradient Boosting: ансамбль последовательных слабых моделей, каждая исправляет ошибки предыдущей
XGBoost: колоночный подход, L1/L2 регуляризация, sparse-aware
LightGBM: leaf-wise growth, histogram-based, быстрее XGBoost на больших данных
CatBoost: нативная работа с категориями, ordered target encoding, GPU
Hyperparameter tuning: Optuna, learning_rate, max_depth, n_estimators, early_stopping

Аналитика и графики

Старый подход vs AI-подход

🪦Старый век
🚀Новый век
Обучение модели

sklearn RandomForest — долго, переобучается

8x

CatBoost + Optuna — быстро, точно, автотюнинг

Инструменты урока

CatBoostXGBoostLightGBMOptunascikit-learn

Домашнее задание

Практическое задание

На датасете из Feature Engineering обучите XGBoost, LightGBM, CatBoost. Используйте Optuna для подбора гиперпараметров (50 trials). Сравните ROC AUC, время обучения, feature importance.

Урок 45 из 59