Назад к курсу
АкадемияData Analytics + AIНеделя 4Feature Engineering: искусство
Урок 37Неделя 42.5 часа

Feature Engineering: искусство

Превращаем сырые данные в мощные фичи для моделей

0.89+24%

ROC AUC после FE

200+engineering

Фичей из 20 колонок

#1critical

Навык ML-инженера

3xvs baseline

Рост качества модели

AI Insight

В Forte Bank churn-модель с baseline фичами давала ROC AUC 0.72. После feature engineering: lag-фичи транзакций, RFM-метрики, поведенческие паттерны — ROC AUC вырос до 0.89. Модель та же, данные другие.

Ключевые темы

Feature Engineering — главный навык ML-инженера, важнее выбора модели
Числовые фичи: log-трансформации, биннинг, полиномы, взаимодействия
Категориальные: one-hot, label, target encoding, frequency encoding
Временные ряды: lag-фичи, rolling mean/std, сезонность, тренд
Текстовые фичи: TF-IDF, длина, специальные символы, n-граммы

Аналитика и графики

Старый подход vs AI-подход

🪦Старый век
🚀Новый век
Создание фичей

Вручную в pandas, copy-paste

20x

Feature store + автоматические пайплайны

Отбор фичей

Интуиция + корреляции

5x

Permutation importance + SHAP values

Инструменты урока

pandasscikit-learnfeaturetoolscategory_encoders

Домашнее задание

Практическое задание

Возьмите датасет Titanic или Bank Marketing. Из 10 исходных колонок создайте 50+ фичей. Покажите улучшение ROC AUC модели до и после feature engineering.

Урок 37 из 59