Article

Почему Казахстан никогда не создаст свою LLM

Нерешаемая проблема данных. Провалы «казахских AI». Почему все будем юзать Claude Opus 4.6.

ResearchLLMAIKZ10 мин
Мадияр Хамзанов
Мадияр Хамзанов
21 марта 2026
~2B
Токенов на казахском
vs 5 трлн на английском
0
Рабочих KZ LLM
ни одной production-ready
3000x
Разрыв в данных
EN vs KZ по объёму корпуса
$100M+
Стоимость обучения
для competitive LLM

«Мы создадим свою казахскую LLM» -- фраза, которую повторяют каждые 6 месяцев разные люди, с одинаковым результатом: ноль. Дело не в деньгах или кадрах. Дело в фундаментальной математической невозможности.

Взгляд изнутри: почему я пишу это

Я ML-инженер. Я видел, как в Казахстане презентуют «казахскую AI» на конференциях, как журналисты Tengri News пишут о «прорыве», как стартаперы привлекают гранты. И каждый раз, когда я смотрел на техническую часть -- это был fine-tuned Llama с 50K казахских текстов. Маркетинг на уровне 10/10, техника на уровне 1/10.

Проблема не в том, что люди плохие или некомпетентные. Проблема в том, что никто честно не объясняет, что стоит за настоящей LLM. Anthropic потратила сотни миллионов долларов и годы на обучение Claude 3. OpenAI сожгла $100M+ только на GPT-4. По данным Epoch AI, вычислительные мощности для frontier-моделей растут в 4-5x в год, и разрыв между лидерами и остальными только увеличивается.

Когда я слышу «мы создадим казахскую LLM», я задаю один вопрос: а вы читали LLaMA paper или Llama 2 tech report? Там честно написано: для обучения Llama 2 (70B) использовали 2 трлн токенов и 3.3M GPU-часов на A100. У нас нет ни данных, ни железа, ни денег. Это не пессимизм -- это арифметика.

Личное мнение: я хочу, чтобы казахский язык развивался в цифровом пространстве. Но честный путь -- не имитация OpenAI, а создание казахских датасетов, бенчмарков и приложений поверх мировых моделей. Именно это принесёт реальную пользу.

Корень проблемы: данных не существует

LLM -- это функция от данных. Нет данных -- нет модели. Весь интернет на казахском -- примерно 2 млрд токенов. English-корпус для GPT-4 и Claude 3 -- 5+ трлн токенов. Разница в 2500-3000 раз. Это подтверждается анализом Common Crawl -- крупнейшего веб-архива для LLM, где казахский составляет менее 0.1% контента, а также исследований по составу обучающих корпусов. Академическая работа «KazNLP: Resources for Kazakh NLP» честно признаёт: объём и качество казахских текстовых данных остаются критическим ограничением.

6.8M
статей (в 29x больше)
Казахские СМИ (уникальные)
~50
сайтов с оригинальным контентом

Проблема глубже, чем объём. Большинство текстов на казахском -- переводы с русского (50%+), госдокументы, дубликаты новостей и автогенерация. Качественных научных, технических и литературных текстов на казахском практически нет. По данным W3Techs, казахский используется менее чем на 0.1% сайтов в мире. Для сравнения: даже турецкий язык (~80M носителей) представлен в 40 раз больше в Common Crawl, что объясняет, почему турецкие LLM-инициативы хотя бы имеют шансы.

Объём обучающих данных по языкам

Млрд токенов для обучения LLM. Казахский практически невидим на графике.

Kazakh: ~2B tokens = 0.04% от English. Это как строить небоскрёб из 10 кирпичей.

Суть проблемы: даже если собрать ВСЕ тексты на казахском из всего интернета -- их в 3000 раз меньше нужного. Нельзя купить данные, которых не существует.

Все попытки создать «казахскую LLM»

За 3 года несколько организаций объявляли о создании казахской LLM. Вот что вышло. Академические исследования ведутся в Назарбаев Университете и публикуются на конференциях ACL/EMNLP, однако разрыв между академической NLP-моделью и production LLM -- пропасть. Отдельно стоит заметить, что казахстанские банки также пытаются играть в эту игру, не будучи исключением из паттерна:

Beeline KZ / AI LabЗаморожен
~$2M
Заявляли:

«Первая казахская LLM». Партнёрство с университетами.

Реальность:

Fine-tuned Llama 2 на ~50K текстах. Проигрывает базовой Llama 3. Проект заморожен.

Tech15%
PR85%
Kaspi AI (казахский)Работает (нишево)
N/A
Заявляли:

«Лучшая модель для казахского языка». Генерация описаний товаров.

Реальность:

Fine-tuned модель для узкой задачи. Не general-purpose LLM.

Tech35%
PR75%
NIS / Назарбаев УниверситетАкадемия
Гранты
Заявляли:

NLP-исследования для казахского. Публикации на ACL/EMNLP.

Реальность:

Академические модели BERT-уровня. Не production LLM. Нет ресурсов для масштабирования.

Tech40%
PR30%
Госпроекты (МЦРИАП)Документы
~$15M (на всё AI)
Заявляли:

«Цифровой Казахстан» — AI для госуслуг. «AI-стратегия 2030».

Реальность:

Документы и стратегии. Ноль публичных моделей.

Tech5%
PR90%

Паттерн: у всех проектов PR-уровень значительно выше tech-уровня. Привлечь финансирование на волне AI-хайпа проще, чем довести проект до результата.

Рецепт «казахской LLM» за 7 шагов

Типичная последовательность, которую проходит большинство подобных проектов. Базовая модель берётся с HuggingFace (Meta Llama 3), выпущенной под открытой лицензией. Это абсолютно легально -- но называть результат «своей LLM» так же честно, как назвать собственным автомобиль с новой покраской:

1

Скачать Llama 3 70B с HuggingFace

15 минЛёгко
2

Набрать 50K казахских текстов из Wikipedia

2 часаЛёгко
3

Fine-tune на 4x A100 (арендовать)

2-3 дняСредне
4

Назвать «Первая казахская AI-модель»

5 минЛёгко
5

Отправить пресс-релиз в Tengri News

30 минЛёгко
6

Получить грант от МЦРИАП

3-6 месСредне
7

Проект теряет актуальность через год

12 месТипично

Итого: «Создание казахской LLM» до пресс-релиза -- ~3 дня. Реальная competitive LLM -- 2-5 лет и $100M+.

Реальная стоимость и масштаб разрыва

Сравним ресурсы, необходимые для competitive LLM, с тем, что есть у Казахстана. Данные по стоимости обучения основаны на базе данных Epoch AI по frontier-моделям и техническому отчёту Llama 2, где Meta раскрыла реальные вычислительные затраты (3.3M часов A100 для 70B модели). Стоимость аренды H100 на Google Cloud -- около $3.40/час, то есть 500K часов = $1.7B. Без собственной инфраструктуры это неподъёмно.

МетрикаМировой уровеньКазахстанРазрыв
Бюджет на обучение$50-200M~$2-5M40-100x
GPU-часы (H100)50K-500K~500-2K100x
Датасет (токены)5-15 трлн~2-5 млрд3000x
Исследователи (PhD)200-1000~5-1550x
Wikipedia (статьи)6.8M (EN)232K (KZ)29x меньше

Что нужно для LLM vs Что есть у КЗ

Красная зона -- минимум для LLM. Синяя -- реальность Казахстана.

Нужно для LLM
Есть у КЗ
Данные
Нерешаемо

~2B токенов -- 0.04% от нужного объёма. Нельзя создать то, чего не существует.

GPU и инфра
Теоретически решаемо

GPU можно арендовать. 512 GPU Alem.Cloud куплены за $50M. Но обучение -- $50-200M. Весь AI-бюджет КЗ -- ~$15M.

Кадры
Утечка мозгов

~15 PhD vs 1000+. Каждый ML-специалист уезжает в Google/Meta/Anthropic.

Почему это нерешаемая проблема

01Данных нет и не будетФизическое ограничение

На казахском не пишут научные статьи, техдокументацию, книги по программированию. По данным Kazakh Wikipedia Stats, казахский раздел Википедии насчитывает 232K статей — для сравнения, арабский (370M носителей) имеет 1.2M статей. За 10 лет казахский интернет вырос на ~30%. Нужен рост в 3000%.

02Мультиязычные модели уже побеждаютКонкуренция

Claude, GPT-4, Gemini понимают казахский через мультиязычное обучение. По результатам бенчмарка FLORES-200, мультиязычные модели Google и Meta превосходят монолингвальные fine-tuned модели на низкоресурсных языках. Они делают это лучше любой fine-tuned Llama -- у них контекст из 100+ языков.

03Рынок слишком малЭкономика

20M казахоязычных пользователей, ~8M в интернете, ~100K тех, кому нужна LLM именно на казахском. Для сравнения: Mistral AI привлекла $1.3B при охвате всего европейского рынка. Окупить $100M+ затрат только на казахском невозможно.

Аналогия: создавать казахскую LLM -- как строить ракету для одного спутника. SpaceX запускает 1000 за раз. Казахстан конкурирует с $200B индустрией, имея $15M.

Реальная стратегия

Вместо попыток создать «свою LLM» Казахстану стоит сфокусироваться на том, что реально работает. Примеры для вдохновения: Финляндия и Норвегия успешно создают финские NLP-инструменты поверх мультиязычных моделей, не пытаясь конкурировать с OpenAI. Израиль строит специализированные инструменты для иврита. Казахстану нужна та же прагматичная стратегия:

Что работает
Что НЕ работает
  • Тратить деньги на «национальную LLM»
  • Fine-tune Llama и называть «своя модель»
  • Писать «AI-стратегии» без бюджета
  • Проводить хакатоны ради PR
  • Ждать, пока государство «создаст AI»

Казахстан не производит процессоры -- но пользуется лучшими. Не строит свои ОС -- но использует лучшие. С LLM будет то же самое. Единственный честный путь -- это стать применителями, а не создателями фундаментальных моделей. Это не слабость, это прагматизм. Эстония с населением 1.3M строит лучшее цифровое государство в мире поверх существующих технологий, а не создавая собственные OS и процессоры.

Финальная мысль: настоящая AI-стратегия для Казахстана -- научить 100K разработчиков использовать Claude, GPT-4 и open-source модели для решения реальных проблем. Конкурировать нужно на уровне приложений, не фундаментальных моделей. И для этого есть смысл разобраться, кто реально учит AI в Казахстане, а кто продаёт страх.

Мадияр Хамзанов
Мадияр Хамзанов
mkhamzanov.com

Все статьи

Блог
AI — алый океан: продай меня, если сможешь23 мар. 2025 г.
SaaS — это новая Tilda: почему строить стартап в 2026 бессмысленно23 мар. 2026 г.
Парадокс автоматизации: почему ИИ заставляет нас работать больше23 мар. 2026 г.
Как llms.txt увеличил трафик с AI-чатов на 23%23 мар. 2026 г.
География определяет профессию: почему в Казахстане все дороги ведут в банк23 мар. 2026 г.
AI Adoption в разработке: США vs Казахстан и Россия23 мар. 2026 г.
AI для продаж: пузырь Whisper-обёрток или реальный бизнес?23 мар. 2026 г.
Пока ты спишь — агенты должны работать23 мар. 2026 г.
Где железо, Зина? Суперкомпьютер Казахстана и 512 GPU, которые никто не видел22 мар. 2026 г.
Не говори кто ты. Покажи свой usage в Claude Code.21 мар. 2026 г.
Дай мне свой GitHub — и я скажу, кто ты21 мар. 2026 г.
Два лагеря разработчиков. Оба неправы.21 мар. 2026 г.
ROC AUC всему голова: главная метрика ранжирования21 мар. 2026 г.
Рынок AI в Казахстане схлопнется, когда туда залетят миллионники21 мар. 2026 г.
Рынок чат-ботов: пузырь домохозяек или реальный бизнес?21 мар. 2026 г.
Код стоит $200 в месяц. Разработчик — нет.21 мар. 2026 г.
Солопренёрство × AI: красивая иллюзия или новый дотком-пузырь?21 мар. 2026 г.
Claude Code + Telegram: как управлять AI-агентом с телефона21 мар. 2026 г.
Феномен вайбкодинга: почему Маргулан Сейсембаев создаёт продукты без программистов21 мар. 2026 г.
Казахстанский венчур: $2.6 млрд мечтаний и одна реальность21 мар. 2026 г.
Kaspi Жұма 2026: Когда, как подготовиться и стоит ли участвовать?14 февр. 2026 г.
Юнит-экономика для Kaspi-селлера: окупится ли твой товар?14 февр. 2026 г.
Как Machine Learning превращает отзывы в рыночные данные13 февр. 2026 г.
Ценовая сегментация: зачем делить ниши на 5 сегментов13 февр. 2026 г.
Индекс Джини и Парето: Почему один забирает всё?13 февр. 2026 г.