Меня попросили оценить один из казахстанских стартапов в сфере AI-аналитики продаж. Я потратил несколько дней на исследование рынка — и то, что я нашёл, оказалось интереснее, чем я ожидал.
В Казахстане появляется всё больше стартапов, которые продают "AI-аналитику продаж". Записывают звонки менеджеров, транскрибируют через Whisper, накидывают дашборд с оценками — и называют это "искусственным интеллектом". Один из таких проектов — Clario AI.
Давайте разберёмся: это реальный технологический продукт или токен-арбитраж — перепродажа дешёвых API-вызовов с наценкой x10? Я разобрал стек, сравнил цены и поговорил с людьми, которые строят аналогичные решения внутри банков.
Что продают Clario AI и подобные
Clario AI позиционирует себя как платформу, которая "автоматически возвращает потерянные сделки, находит точки роста в отделе продаж и извлекает маркетинговые инсайты из звонков". Целевая аудитория — B2B-компании с 5+ менеджерами по продажам.
Звучит впечатляюще. Но давайте разберём, что под капотом:
Clario обещает "рост выручки на 20% за 3 месяца". Это маркетинговое обещание, а не гарантия технологии. Любой РОП, который начнёт слушать звонки своих менеджеров, покажет рост — потому что сам факт контроля меняет поведение. Это эффект Хоторна, не AI.
Глобальный рынок: гиганты, которых не обогнать
Рынок conversation intelligence software оценивается в $28-32 млрд к 2026 году с CAGR 13-28% в зависимости от сегмента. Но кто реально занимает этот рынок?
| Компания | ARR / Выручка | Оценка | Особенность |
|---|---|---|---|
| Gong | $332M (2024) | $4.5B (2026) | Revenue AI OS. 4000+ клиентов |
| Chorus.ai (ZoomInfo) | Часть ZoomInfo ($1.2B) | Acquired $575M | Интегрирован в Revenue OS |
| Verint | $1.9B (public) | NYSE: VRNT | Enterprise CX. Купил Cogito $38M |
| Observe.AI | ~$100M+ | $350M+ (Series C) | 100% аудит звонков |
| CallRail | ~$200M+ | Private | SMB call tracking + analytics |
| Clario AI (KZ) | Неизвестно | Неизвестно | Whisper + LLM + дашборд |
Gong достиг $300M+ ARR и обслуживает 4000+ компаний. При этом даже у Gong оценка упала с $7.2B до $4.5B на вторичном рынке. Если даже лидер с $332M выручки торгуется со скидкой 38% — что это говорит о рынке?
Рынок conversation intelligence консолидируется: в 2021 году ZoomInfo купил Chorus.ai за $575M, в 2022 Salesforce интегрировал речевую аналитику в Einstein. Крупные CRM-платформы поглощают этот функционал как встроенную фичу. Это значит, что через 2-3 года speech analytics станет частью любого CRM-плана — так же как email-отслеживание стало частью HubSpot Free.
Verint — публичная компания с выручкой $1.9B, которая специализируется на enterprise conversation intelligence. Их клиенты — банки, страховые, телеком-операторы. В 2024 Verint купил Cogito за $38.2M для усиления AI-автоматизации CX. Это уровень, на котором играют серьёзные компании.
Технология стала commodity: цены обрушились
В 2022 году, когда OpenAI выпустил Whisper, это был прорыв. Впервые open-source модель показала качество на уровне коммерческих API. Но прошло 3.5 года — и ситуация радикально изменилась.
Self-hosted Whisper large-v3 на A100 обрабатывает час аудио за 7.5 минут и стоит порядка $0.03/час. Это в 12 раз дешевле API. А Deepgram Nova-3 даёт real-time транскрипцию за $0.0077/мин с диаризацией и форматированием.
Но Whisper — уже не лидер. На Open ASR Leaderboard от Hugging Face первое место занимает NVIDIA Canary Qwen 2.5B с WER 5.63%, обгоняя Whisper large-v3. А модель Whale показывает ~2.4% WER на LibriSpeech — это уровень, близкий к человеческому.
Word Error Rate (WER) — чем ниже, тем лучше:
Whisper large-v3 Turbo — облегчённая версия, работает в 6 раз быстрее оригинала, сохраняя точность в пределах 1-2%. 809M параметров вместо 1.5B. Для большинства задач речевой аналитики — более чем достаточно.
Параллельно Groq предлагает инференс Whisper large-v3 со скоростью 189x realtime за $0.111/час. А Whisper large-v3 Turbo на Hugging Face запускается на обычном MacBook Pro M2 в 8x realtime без GPU. Барьер для self-hosted исчез полностью.
Безопасность: почему банки не пойдут к стартапам
Для финансовых организаций главный вопрос — не качество транскрипции, а куда уходят данные. Записи звонков с клиентами содержат персональные данные, номера карт, финансовую информацию. Регуляторы — от НБ РК до GDPR — требуют контроля над данными.
Yandex SpeechKit предлагает и гибридный, и полностью on-premise деплой для банков и финансовых организаций. Данные остаются внутри периметра. Для казахстанских банков, работающих в правовом поле ЕАЭС, это критически важно.
Ни один Chief Risk Officer не подпишет контракт на передачу записей клиентских звонков в облако неизвестного казахстанского стартапа. Это карьерное самоубийство.
Для стартапа это порочный круг: чтобы получить enterprise-клиентов, нужна сертификация SOC 2, PCI DSS, нужен аудит кода и инфраструктуры. Это стоит $200-500K и занимает 6-12 месяцев. А без enterprise-клиентов нет денег на сертификацию.
Банки делают это сами
Крупнейшие банки Казахстана — Kaspi, Halyk, Jusan — уже имеют внутренние ML-команды. По данным hh.kz, только у Kaspi открыто 50+ вакансий data scientist и ML engineer. Они не просто "думают об AI" — они строят свои пайплайны речевой аналитики.
| Банк | ML-команда | Что делают | Нужен стартап? |
|---|---|---|---|
| Kaspi.kz | 50+ data scientists | Скоринг, NLP, речевая аналитика | Нет |
| Halyk Bank | 20+ ML-инженеров | AI Lab, оцифровка звонков, чат-боты | Нет |
| Freedom Bank | AI-подразделение | Голосовой бот для президента | Нет |
| Jusan Bank | Data & AI team | Аналитическая платформа | Нет |
Для банка с ML-командой построить пайплайн "Whisper + LLM + дашборд" — это проект на 2-4 недели, а не на 2 года. У них уже есть инфраструктура, GPU, доступ к данным и, главное, понимание своего домена.
А теперь добавьте к уравнению Yandex SpeechKit с on-premise деплоем и готовым SDK. Банку даже не нужно обучать свою STT-модель — нужно только подключить API и написать логику анализа на LLM.
Малый бизнес может сделать это сам
"Ладно, банки делают сами — но малый бизнес не может!" Это аргумент, который продавцы Whisper-обёрток используют. В 2024 году это ещё работало. В 2026 — нет.
С Claude Opus 4.6, Whisper и современными no-code/low-code инструментами любой бизнес с 5+ менеджерами может собрать свою аналитику звонков. Это буквально на расстоянии вытянутого промпта.
Разница в 10-20 раз. И при DIY-подходе вы полностью контролируете данные, можете кастомизировать чеклист оценки под свой бизнес и не зависите от стартапа, который может закрыться через полгода.
Вердикт: пузырь, который сдуется
Давайте подведём итог. Рынок AI-аналитики продаж в Казахстане — это классический пример токен-арбитража:
Глобальные игроки — Gong, Verint, Observe.AI — выживают за счёт масштаба, данных и многолетних интеграций. У них есть то, чего нет у казахстанских стартапов: петабайты размеченных данных, сотни enterprise-клиентов, и настоящие ML-команды, которые строят модели, а не вызывают чужие API.
Если ваш весь технологический стек — это Whisper API + GPT-4o + Next.js дашборд, то вы не технологическая компания. Вы интегратор с красивым лендингом.
Это не значит, что speech analytics бесполезна. Наоборот — это мощный инструмент для роста продаж. Но платить стартапу-посреднику за то, что можно собрать самому за выходные — это как покупать воду из-под крана в бутылке за $10.
Отдельно стоит упомянуть языковую проблему. Whisper справляется с русским на уровне ~8-10% WER, а казахский — ещё хуже. Специализированные модели вроде Whisper large-v3 или Yandex SpeechKit обученные на местных данных — реальное конкурентное преимущество. Но у казахстанских стартапов таких данных нет.