Назад к курсу
АкадемияData Analytics + AIНеделя 1Данные решают всё
Урок 3Неделя 12 часа

Данные решают всё

80% ML — это данные, а не модели

80%+80%

Времени на данные

$4.2MROI

Годовой эффект ML

10+real

Моделей в проде

500K+10b.kz

Строк собранных данных

AI Insight

Все говорят про модели, но победитель — тот, у кого данные лучше. В Forte Bank мы потратили 2 месяца на сбор данных и 2 недели на модель. Результат: $4.2M годового эффекта.

Ключевые темы

Без качественных данных даже лучшая модель бесполезна — garbage in, garbage out
80% времени ML-инженера уходит на поиск, сбор и подготовку данных
Источники данных: открытые API, госданные, парсинг, внутренние БД, маркетплейсы
Этика и легальность сбора данных: GDPR, PII, Terms of Service
Кейс: как я собрал данные для 10b.kz (госзакупки КЗ) и Redstat.kz (Kaspi маркетплейс)

Аналитика и графики

Старый подход vs AI-подход

🪦Старый век
🚀Новый век
Сбор данных

Ручной copy-paste из сайтов, дни работы

100x

Scrapy + BeautifulSoup — автоматический парсинг

API интеграция

Ручные HTTP запросы, без retry

20x

Python-клиенты с пагинацией, retry, rate-limit

Валидация данных

Глазами просматривать таблицы

50x

Great Expectations — автотесты для данных

Инструменты урока

PythonScrapyBeautifulSouprequestsAPI clients

Домашнее задание

Практическое задание

Напишите парсер для любого открытого источника данных (госзакупки, hh.ru, маркетплейс). Соберите минимум 10,000 строк. Сохраните в CSV с валидацией.

Урок 3 из 59