Назад к курсу
АкадемияData Analytics + AIНеделя 1Парсинг и API: практика
Урок 6Неделя 12.5 часа

Парсинг и API: практика

Scrapy, BeautifulSoup, REST API — боевые инструменты

500K+10b.kz

Тендеров собрано

10KRedstat

Продавцов Kaspi

24/7cron

Автосбор данных

99.5%retry

Надёжность парсинга

AI Insight

Кейс 10b.kz: Scrapy-паук обошёл 500K+ тендеров за ночь. Кейс Redstat.kz: API Kaspi + парсинг карточек = полная аналитика маркетплейса для 10,000 продавцов.

Ключевые темы

Scrapy — промышленный фреймворк для парсинга: пагинация, retry, pipelines
BeautifulSoup — быстрый парсинг HTML/XML для простых задач
REST API: аутентификация, rate limiting, пагинация, обработка ошибок
Selenium / Playwright — когда сайт рендерится на клиенте (SPA)
Anti-bot обход: ротация прокси, User-Agent, задержки, headless-браузер

Аналитика и графики

Старый подход vs AI-подход

🪦Старый век
🚀Новый век
Парсинг 1000 страниц

requests + loop: 3 часа, без retry

36x

Scrapy pipeline: 5 минут, с retry и прокси

SPA сайт

Невозможно — контент рендерится в JS

Playwright headless — рендерим и парсим

Инструменты урока

ScrapyBeautifulSouprequestsPlaywrightSelenium

Домашнее задание

Практическое задание

Постройте Scrapy-паука для парсинга hh.ru (вакансии Data Scientist). Соберите: название, зарплата, навыки, компания. Минимум 500 вакансий. Сохраните в JSON Lines.

Урок 6 из 59