Article

AI для продаж: пузырь Whisper-обёрток или реальный бизнес?

Рынок conversation intelligence растёт до $32 млрд. Но когда транскрипция стоит $0.006/мин, а open-source модели бьют коммерческие — кому нужны стартапы-посредники?

AISpeech-to-TextКазахстанРасследование14 мин
Мадияр Хамзанов
Мадияр Хамзанов
23 марта 2026
$32 млрд
Рынок CI к 2026
$0.006
Цена /мин Whisper API
$300M+
ARR у Gong
5.63%
WER лучших open-source

Меня попросили оценить один из казахстанских стартапов в сфере AI-аналитики продаж. Я потратил несколько дней на исследование рынка — и то, что я нашёл, оказалось интереснее, чем я ожидал.

В Казахстане появляется всё больше стартапов, которые продают "AI-аналитику продаж". Записывают звонки менеджеров, транскрибируют через Whisper, накидывают дашборд с оценками — и называют это "искусственным интеллектом". Один из таких проектов — Clario AI.

Давайте разберёмся: это реальный технологический продукт или токен-арбитраж — перепродажа дешёвых API-вызовов с наценкой x10? Я разобрал стек, сравнил цены и поговорил с людьми, которые строят аналогичные решения внутри банков.

Дисклеймер: эта статья — не атака на конкретный стартап. Это анализ целого сегмента рынка, где десятки компаний продают по сути одинаковый commodity-продукт. Clario AI используется как типичный представитель.

Что продают Clario AI и подобные

Clario AI позиционирует себя как платформу, которая "автоматически возвращает потерянные сделки, находит точки роста в отделе продаж и извлекает маркетинговые инсайты из звонков". Целевая аудитория — B2B-компании с 5+ менеджерами по продажам.

Звучит впечатляюще. Но давайте разберём, что под капотом:

1
Запись звонка
Интеграция с телефонией (SIP/VoIP). Это стандартная функция любой АТС — Asterisk, 3CX, Mango Office. Не технология, а плагин.
2
Транскрипция (STT)
Whisper API от OpenAI или его open-source аналог. $0.006/мин через API. Self-hosted — ещё дешевле.
3
Анализ текста (LLM)
GPT-4o или Claude анализирует транскрипцию: оценивает менеджера, находит возражения, выставляет баллы. Стоимость — несколько центов за звонок.
4
Дашборд
React/Vue фронтенд с графиками. Таблицы, фильтры, экспорт. Стандартный SaaS-интерфейс.
Суть бизнес-модели: записать звонок (бесплатно) + транскрибировать ($0.006/мин) + прогнать через LLM ($0.02-0.05 за звонок) + показать в дашборде. Себестоимость анализа одного 5-минутного звонка — менее $0.10. Продаётся за $5-15 на менеджера в день.

Clario обещает "рост выручки на 20% за 3 месяца". Это маркетинговое обещание, а не гарантия технологии. Любой РОП, который начнёт слушать звонки своих менеджеров, покажет рост — потому что сам факт контроля меняет поведение. Это эффект Хоторна, не AI.

Глобальный рынок: гиганты, которых не обогнать

Рынок conversation intelligence software оценивается в $28-32 млрд к 2026 году с CAGR 13-28% в зависимости от сегмента. Но кто реально занимает этот рынок?

КомпанияARR / ВыручкаОценкаОсобенность
Gong$332M (2024)$4.5B (2026)Revenue AI OS. 4000+ клиентов
Chorus.ai (ZoomInfo)Часть ZoomInfo ($1.2B)Acquired $575MИнтегрирован в Revenue OS
Verint$1.9B (public)NYSE: VRNTEnterprise CX. Купил Cogito $38M
Observe.AI~$100M+$350M+ (Series C)100% аудит звонков
CallRail~$200M+PrivateSMB call tracking + analytics
Clario AI (KZ)НеизвестноНеизвестноWhisper + LLM + дашборд

Gong достиг $300M+ ARR и обслуживает 4000+ компаний. При этом даже у Gong оценка упала с $7.2B до $4.5B на вторичном рынке. Если даже лидер с $332M выручки торгуется со скидкой 38% — что это говорит о рынке?

Рынок conversation intelligence консолидируется: в 2021 году ZoomInfo купил Chorus.ai за $575M, в 2022 Salesforce интегрировал речевую аналитику в Einstein. Крупные CRM-платформы поглощают этот функционал как встроенную фичу. Это значит, что через 2-3 года speech analytics станет частью любого CRM-плана — так же как email-отслеживание стало частью HubSpot Free.

Сигнал рынка: Gong — компания с 10+ годами разработки, сотнями ML-инженеров, петабайтами данных звонков для обучения моделей — и даже она не может оправдать оценку 2021 года. Казахстанский стартап с Whisper API не имеет шансов конкурировать на технологическом уровне.

Verint — публичная компания с выручкой $1.9B, которая специализируется на enterprise conversation intelligence. Их клиенты — банки, страховые, телеком-операторы. В 2024 Verint купил Cogito за $38.2M для усиления AI-автоматизации CX. Это уровень, на котором играют серьёзные компании.

Технология стала commodity: цены обрушились

В 2022 году, когда OpenAI выпустил Whisper, это был прорыв. Впервые open-source модель показала качество на уровне коммерческих API. Но прошло 3.5 года — и ситуация радикально изменилась.

-90% за 2 года
Whisper API
$0.006/мин
OpenAI Whisper API — $0.36/час аудио
Real-time
Deepgram Nova-3
$0.0077/мин
Real-time STT, $0.46/час
12x дешевле API
Self-hosted Whisper
~$0.03/час
На A100 GPU, 8x realtime

Self-hosted Whisper large-v3 на A100 обрабатывает час аудио за 7.5 минут и стоит порядка $0.03/час. Это в 12 раз дешевле API. А Deepgram Nova-3 даёт real-time транскрипцию за $0.0077/мин с диаризацией и форматированием.

Но Whisper — уже не лидер. На Open ASR Leaderboard от Hugging Face первое место занимает NVIDIA Canary Qwen 2.5B с WER 5.63%, обгоняя Whisper large-v3. А модель Whale показывает ~2.4% WER на LibriSpeech — это уровень, близкий к человеческому.

Word Error Rate (WER) — чем ниже, тем лучше:

Whale (SOTA)2.4%
NVIDIA Canary Qwen5.63%
Whisper large-v36.5%
Whisper large-v3 Turbo7.2%
Человек (avg)5%

Whisper large-v3 Turbo — облегчённая версия, работает в 6 раз быстрее оригинала, сохраняя точность в пределах 1-2%. 809M параметров вместо 1.5B. Для большинства задач речевой аналитики — более чем достаточно.

Параллельно Groq предлагает инференс Whisper large-v3 со скоростью 189x realtime за $0.111/час. А Whisper large-v3 Turbo на Hugging Face запускается на обычном MacBook Pro M2 в 8x realtime без GPU. Барьер для self-hosted исчез полностью.

Итог по технологии: STT в 2026 году — это как JPEG-сжатие. Все умеют, все делают одинаково, никто не платит премию за "наш уникальный алгоритм сжатия". Дифференциация возможна только на уровне доменной экспертизы, данных и интеграций — не на уровне базовой транскрипции.
Сентябрь 2022
OpenAI выпускает Whisper
Прорыв: open-source STT на уровне коммерческих решений. Поддержка 99 языков.
Ноябрь 2023
Whisper large-v3
Улучшенная модель. WER падает. Цена API — $0.006/мин.
2024
Deepgram Nova-2, NVIDIA Canary
Open-source модели обгоняют Whisper. Цены на API продолжают падать.
2025-2026
Полная коммодитизация
STT доступен за копейки. Whisper Turbo, Groq-ускорение, edge-инференс на смартфонах.

Безопасность: почему банки не пойдут к стартапам

Для финансовых организаций главный вопрос — не качество транскрипции, а куда уходят данные. Записи звонков с клиентами содержат персональные данные, номера карт, финансовую информацию. Регуляторы — от НБ РК до GDPR — требуют контроля над данными.

Yandex SpeechKit
On-premise деплой. Данные не покидают контур. 90% удовлетворённости банковских клиентов. Доверяют крупнейшие банки СНГ.
Verint / NICE
Enterprise-grade compliance. SOC 2 Type II, PCI DSS, HIPAA. Годы сертификации. Dedicated инфраструктура.
Self-hosted Whisper
Банк запускает модель на своих серверах. Данные никуда не уходят. Полный контроль. Нулевая зависимость от вендора.
Стартап типа Clario
Облачный SaaS. Звонки уходят на чужие серверы. Нет сертификации. Нет compliance. Нет аудита. Red flag для любого банка.

Yandex SpeechKit предлагает и гибридный, и полностью on-premise деплой для банков и финансовых организаций. Данные остаются внутри периметра. Для казахстанских банков, работающих в правовом поле ЕАЭС, это критически важно.

Ни один Chief Risk Officer не подпишет контракт на передачу записей клиентских звонков в облако неизвестного казахстанского стартапа. Это карьерное самоубийство.
Реальность enterprise-продаж

Для стартапа это порочный круг: чтобы получить enterprise-клиентов, нужна сертификация SOC 2, PCI DSS, нужен аудит кода и инфраструктуры. Это стоит $200-500K и занимает 6-12 месяцев. А без enterprise-клиентов нет денег на сертификацию.

Банки делают это сами

Крупнейшие банки Казахстана — Kaspi, Halyk, Jusan — уже имеют внутренние ML-команды. По данным hh.kz, только у Kaspi открыто 50+ вакансий data scientist и ML engineer. Они не просто "думают об AI" — они строят свои пайплайны речевой аналитики.

БанкML-командаЧто делаютНужен стартап?
Kaspi.kz50+ data scientistsСкоринг, NLP, речевая аналитикаНет
Halyk Bank20+ ML-инженеровAI Lab, оцифровка звонков, чат-ботыНет
Freedom BankAI-подразделениеГолосовой бот для президентаНет
Jusan BankData & AI teamАналитическая платформаНет

Для банка с ML-командой построить пайплайн "Whisper + LLM + дашборд" — это проект на 2-4 недели, а не на 2 года. У них уже есть инфраструктура, GPU, доступ к данным и, главное, понимание своего домена.

Экономика для банка: стоимость содержания ML-инженера в Казахстане — ~$2-4K/мес. Один инженер за месяц соберёт внутренний сервис речевой аналитики, который будет стоить банку $0.03/час аудио (self-hosted Whisper) вместо $X/менеджер/месяц у стартапа. При 1000+ менеджерах экономия — сотни тысяч долларов в год.

А теперь добавьте к уравнению Yandex SpeechKit с on-premise деплоем и готовым SDK. Банку даже не нужно обучать свою STT-модель — нужно только подключить API и написать логику анализа на LLM.

Малый бизнес может сделать это сам

"Ладно, банки делают сами — но малый бизнес не может!" Это аргумент, который продавцы Whisper-обёрток используют. В 2024 году это ещё работало. В 2026 — нет.

С Claude Opus 4.6, Whisper и современными no-code/low-code инструментами любой бизнес с 5+ менеджерами может собрать свою аналитику звонков. Это буквально на расстоянии вытянутого промпта.

1
Запись
Mango Office, Zadarma, или любая IP-АТС уже записывает звонки. Если нет — включить одну галочку в настройках.
2
Транскрипция
Whisper API — $0.006/мин. 100 звонков по 5 минут = $3 в день. Или Deepgram Nova-3 с real-time стримингом.
3
Анализ
Claude / GPT-4o анализирует транскрипцию по вашему чеклисту. Оценка менеджера, выявление возражений, рекомендации. $0.02-0.05 за звонок.
4
Отчёт
Google Sheets, Notion, или простой Telegram-бот. Отчёт приходит РОПу каждое утро. Всё.
10-20x дешевле
DIY-решение
$50-100/мес
API-вызовы + хостинг для 100 звонков/день
Наценка x10-x50
SaaS-стартап
$500-2000/мес
Подписка на 10-20 менеджеров

Разница в 10-20 раз. И при DIY-подходе вы полностью контролируете данные, можете кастомизировать чеклист оценки под свой бизнес и не зависите от стартапа, который может закрыться через полгода.

Учитесь строить сами: в разделе Academy на этом сайте мы учим, как использовать AI-инструменты для автоматизации бизнес-процессов. Речевая аналитика — один из самых простых кейсов.

Вердикт: пузырь, который сдуется

Давайте подведём итог. Рынок AI-аналитики продаж в Казахстане — это классический пример токен-арбитража:

Технология = commodity
STT-модели open-source, бесплатны и лучше Whisper. Анализ — это API-вызов к LLM за центы. Нет proprietary tech.
Enterprise не купит
Банки и крупный бизнес строят in-house. Compliance, безопасность, данные — всё против стартапов.
SMB не заплатит
Малый бизнес может собрать то же самое за $50-100/мес. Платить $2000 за дашборд над Whisper — нерационально.
Маржа сожмётся
Когда клиенты поймут, что под капотом — API-вызов за центы, наценка x10-x50 станет невозможной.

Глобальные игроки — Gong, Verint, Observe.AI — выживают за счёт масштаба, данных и многолетних интеграций. У них есть то, чего нет у казахстанских стартапов: петабайты размеченных данных, сотни enterprise-клиентов, и настоящие ML-команды, которые строят модели, а не вызывают чужие API.

Если ваш весь технологический стек — это Whisper API + GPT-4o + Next.js дашборд, то вы не технологическая компания. Вы интегратор с красивым лендингом.
Автор

Это не значит, что speech analytics бесполезна. Наоборот — это мощный инструмент для роста продаж. Но платить стартапу-посреднику за то, что можно собрать самому за выходные — это как покупать воду из-под крана в бутылке за $10.

Отдельно стоит упомянуть языковую проблему. Whisper справляется с русским на уровне ~8-10% WER, а казахский — ещё хуже. Специализированные модели вроде Whisper large-v3 или Yandex SpeechKit обученные на местных данных — реальное конкурентное преимущество. Но у казахстанских стартапов таких данных нет.

Прогноз: в течение 12-18 месяцев большинство казахстанских "AI-стартапов для продаж" либо закроются, либо пивотнутся. Останутся те, кто предложит реальную доменную экспертизу — глубокое понимание продаж, кастомные модели для казахского/русского языка, и интеграции с локальными CRM и телефонией. Whisper-обёртка — не бизнес. Это feature.
Мадияр Хамзанов
Мадияр Хамзанов
mkhamzanov.com

Все статьи

Блог
AI — алый океан: продай меня, если сможешь23 мар. 2025 г.
SaaS — это новая Tilda: почему строить стартап в 2026 бессмысленно23 мар. 2026 г.
Парадокс автоматизации: почему ИИ заставляет нас работать больше23 мар. 2026 г.
Как llms.txt увеличил трафик с AI-чатов на 23%23 мар. 2026 г.
География определяет профессию: почему в Казахстане все дороги ведут в банк23 мар. 2026 г.
Где железо, Зина? Суперкомпьютер Казахстана и 512 GPU, которые никто не видел22 мар. 2026 г.
Не говори кто ты. Покажи свой usage в Claude Code.21 мар. 2026 г.
Дай мне свой GitHub — и я скажу, кто ты21 мар. 2026 г.
AI в казахстанских банках: инновации или театр для президента?21 мар. 2026 г.
Почему Казахстан никогда не создаст свою LLM21 мар. 2026 г.
Казахстанские стартапы 2020-х: почему модель «фаундер-звезда + кодер-лох» сдохла21 мар. 2026 г.
Два лагеря разработчиков. Оба неправы.21 мар. 2026 г.
ROC AUC всему голова: главная метрика ранжирования21 мар. 2026 г.
Рынок AI в Казахстане схлопнется, когда туда залетят миллионники21 мар. 2026 г.
Рынок чат-ботов: пузырь домохозяек или реальный бизнес?21 мар. 2026 г.
Код стоит $200 в месяц. Разработчик — нет.21 мар. 2026 г.
Солопренёрство × AI: красивая иллюзия или новый дотком-пузырь?21 мар. 2026 г.
Claude Code + Telegram: как управлять AI-агентом с телефона21 мар. 2026 г.
Феномен вайбкодинга: почему Маргулан Сейсембаев создаёт продукты без программистов21 мар. 2026 г.
Казахстанский венчур: $2.6 млрд мечтаний и одна реальность21 мар. 2026 г.
Kaspi Жұма 2026: Когда, как подготовиться и стоит ли участвовать?14 февр. 2026 г.
Юнит-экономика для Kaspi-селлера: окупится ли твой товар?14 февр. 2026 г.
Как Machine Learning превращает отзывы в рыночные данные13 февр. 2026 г.
Ценовая сегментация: зачем делить ниши на 5 сегментов13 февр. 2026 г.
Индекс Джини и Парето: Почему один забирает всё?13 февр. 2026 г.