Назад к курсу
АкадемияData Analytics + AIНеделя 8NLP: от токенизации до embeddings
Урок 50Неделя 82.5 часа

NLP: от токенизации до embeddings

Обрабатываем тексты: классификация, sentiment, NER

0.94transformers

F1 классификации

100K+automated

Обращений/месяц

15 FTEper year

Экономия

50+multilingual

Языков

AI Insight

Кейс из Forte Bank: классификация обращений клиентов (100K+ в месяц). TF-IDF + CatBoost дал F1 = 0.87. После замены на sentence-transformers + fine-tuning: F1 = 0.94. Автоматическая маршрутизация сэкономила 15 FTE.

Ключевые темы

Токенизация: word-level, subword (BPE, WordPiece), sentence-level
Vectorization: Bag-of-Words, TF-IDF, Word2Vec, FastText
Embeddings: sentence-transformers, multilingual models
Классификация текстов: спам, тональность, тематика, токсичность
NER (Named Entity Recognition): извлечение имён, дат, организаций

Аналитика и графики

Старый подход vs AI-подход

🪦Старый век
🚀Новый век
Классификация текста

Ручные правила + regex

20x + better quality

Sentence-transformers + fine-tuning

Инструменты урока

spaCysentence-transformersscikit-learnNLTKCatBoost

Домашнее задание

Практическое задание

Классификация отзывов (positive/negative): сравните TF-IDF + LogReg vs sentence-transformers + CatBoost. Датасет: IMDB Reviews или Russian Movie Reviews. Метрика: F1.

Урок 50 из 59