Transformers и BERT

Attention Is All You Need — революция в NLP

100K+ecosystem

Моделей на HuggingFace

2 часаfast

Fine-tuning

SOTAtransformers

На любой NLP задаче

3HuggingFace

Строки кода

AI Insight

BERT изменил NLP навсегда. До BERT: месяцы на обучение модели с нуля. После: 2 часа fine-tuning на GPU = state-of-the-art результат для любой NLP-задачи.

Ключевые темы

Transformer архитектура: self-attention, multi-head attention, positional encoding

BERT: bidirectional encoder, MLM pre-training, sentence pairs

Fine-tuning BERT: адаптация под свою задачу за часы, а не недели

HuggingFace Transformers: 100K+ моделей, 3 строки кода для inference

Русскоязычные модели: ruBERT, DeepPavlov, sbert-large-nlu-ru

Аналитика и графики

Старый подход vs AI-подход

🪦Старый век

🚀Новый век

NLP модель

Обучение LSTM с нуля — 2 недели + GPU

168x

Fine-tune BERT — 2 часа на Colab

Инструменты урока

HuggingFace TransformersPyTorchGoogle ColabWeights & Biases

Домашнее задание

Практическое задание

Fine-tune ruBERT на задаче классификации новостей (по категориям). Используйте HuggingFace Trainer. Сравните с TF-IDF baseline. Логируйте эксперименты в Weights & Biases.

Урок 51 из 59

NLP: от токенизации до embeddings

LLM в продакшне