80% ML — это данные, а не модели
Времени на данные
Годовой эффект ML
Моделей в проде
Строк собранных данных
Все говорят про модели, но победитель — тот, у кого данные лучше. В Forte Bank мы потратили 2 месяца на сбор данных и 2 недели на модель. Результат: $4.2M годового эффекта.
Ручной copy-paste из сайтов, дни работы
Scrapy + BeautifulSoup — автоматический парсинг
Ручные HTTP запросы, без retry
Python-клиенты с пагинацией, retry, rate-limit
Глазами просматривать таблицы
Great Expectations — автотесты для данных
Напишите парсер для любого открытого источника данных (госзакупки, hh.ru, маркетплейс). Соберите минимум 10,000 строк. Сохраните в CSV с валидацией.