Почему нельзя просто обучить LLM на казахском языке?

Главная причина — критический дефицит данных. Весь казахский интернет содержит ~2 млрд токенов, тогда как для обучения competitive LLM нужно 5+ трлн токенов. Это разрыв в 3000 раз. Нельзя создать хорошую модель из данных, которых физически не существует.

Разве Beeline и Kaspi не создали казахскую LLM?

Нет. Все анонсированные «казахские LLM» — это fine-tuned версии открытых моделей (Llama 2 или Llama 3) на небольшом казахском корпусе. Fine-tuning занимает 2-3 дня на арендованных GPU. Настоящее обучение LLM с нуля стоит $50-200M и требует годов работы сотен исследователей.

Что реально может сделать Казахстан в сфере AI?

Строить продукты и сервисы поверх мировых моделей (Claude, GPT-4, Gemini). Создавать казахские датасеты и бенчмарки для оценки качества NLP. Развивать инженерные кадры, которые умеют применять AI для решения реальных задач. Это создаёт реальную ценность, в отличие от PR-проектов с «национальной LLM».

Почему Казахстан никогда не создаст свою LLM

~2B

Токенов на казахском

vs 5 трлн на английском

Рабочих KZ LLM

ни одной production-ready

3000x

Разрыв в данных

EN vs KZ по объёму корпуса

$100M+

Стоимость обучения

для competitive LLM

«Мы создадим свою казахскую LLM» -- фраза, которую повторяют каждые 6 месяцев разные люди, с одинаковым результатом: ноль. Дело не в деньгах или кадрах. Дело в фундаментальной математической невозможности.

Взгляд изнутри: почему я пишу это

Я ML-инженер. Я видел, как в Казахстане презентуют «казахскую AI» на конференциях, как журналисты Tengri News пишут о «прорыве», как стартаперы привлекают гранты. И каждый раз, когда я смотрел на техническую часть -- это был fine-tuned Llama с 50K казахских текстов. Маркетинг на уровне 10/10, техника на уровне 1/10.

Проблема не в том, что люди плохие или некомпетентные. Проблема в том, что никто честно не объясняет, что стоит за настоящей LLM. Anthropic потратила сотни миллионов долларов и годы на обучение Claude 3. OpenAI сожгла $100M+ только на GPT-4. По данным Epoch AI, вычислительные мощности для frontier-моделей растут в 4-5x в год, и разрыв между лидерами и остальными только увеличивается.

Когда я слышу «мы создадим казахскую LLM», я задаю один вопрос: а вы читали LLaMA paper или Llama 2 tech report? Там честно написано: для обучения Llama 2 (70B) использовали 2 трлн токенов и 3.3M GPU-часов на A100. У нас нет ни данных, ни железа, ни денег. Это не пессимизм -- это арифметика.

Личное мнение: я хочу, чтобы казахский язык развивался в цифровом пространстве. Но честный путь -- не имитация OpenAI, а создание казахских датасетов, бенчмарков и приложений поверх мировых моделей. Именно это принесёт реальную пользу.

Корень проблемы: данных не существует

LLM -- это функция от данных. Нет данных -- нет модели. Весь интернет на казахском -- примерно 2 млрд токенов. English-корпус для GPT-4 и Claude 3 -- 5+ трлн токенов. Разница в 2500-3000 раз. Это подтверждается анализом Common Crawl -- крупнейшего веб-архива для LLM, где казахский составляет менее 0.1% контента, а также исследований по составу обучающих корпусов. Академическая работа «KazNLP: Resources for Kazakh NLP» честно признаёт: объём и качество казахских текстовых данных остаются критическим ограничением.

Казахская Wikipedia

232K

статей

Английская Wikipedia

6.8M

статей (в 29x больше)

Казахские СМИ (уникальные)

~50

сайтов с оригинальным контентом

Проблема глубже, чем объём. Большинство текстов на казахском -- переводы с русского (50%+), госдокументы, дубликаты новостей и автогенерация. Качественных научных, технических и литературных текстов на казахском практически нет. По данным W3Techs, казахский используется менее чем на 0.1% сайтов в мире. Для сравнения: даже турецкий язык (~80M носителей) представлен в 40 раз больше в Common Crawl, что объясняет, почему турецкие LLM-инициативы хотя бы имеют шансы.

Объём обучающих данных по языкам

Млрд токенов для обучения LLM. Казахский практически невидим на графике.

Kazakh: ~2B tokens = 0.04% от English. Это как строить небоскрёб из 10 кирпичей.

Суть проблемы: даже если собрать ВСЕ тексты на казахском из всего интернета -- их в 3000 раз меньше нужного. Нельзя купить данные, которых не существует.

Все попытки создать «казахскую LLM»

За 3 года несколько организаций объявляли о создании казахской LLM. Вот что вышло. Академические исследования ведутся в Назарбаев Университете и публикуются на конференциях ACL/EMNLP, однако разрыв между академической NLP-моделью и production LLM -- пропасть. Отдельно стоит заметить, что казахстанские банки также пытаются играть в эту игру, не будучи исключением из паттерна:

Beeline KZ / AI LabЗаморожен

~$2M

Заявляли:

«Первая казахская LLM». Партнёрство с университетами.

Реальность:

Fine-tuned Llama 2 на ~50K текстах. Проигрывает базовой Llama 3. Проект заморожен.

Tech15%

PR85%

Kaspi AI (казахский)Работает (нишево)

N/A

Заявляли:

«Лучшая модель для казахского языка». Генерация описаний товаров.

Реальность:

Fine-tuned модель для узкой задачи. Не general-purpose LLM.

Tech35%

PR75%

NIS / Назарбаев УниверситетАкадемия

Гранты

Заявляли:

NLP-исследования для казахского. Публикации на ACL/EMNLP.

Реальность:

Академические модели BERT-уровня. Не production LLM. Нет ресурсов для масштабирования.

Tech40%

PR30%

Госпроекты (МЦРИАП)Документы

~$15M (на всё AI)

Заявляли:

«Цифровой Казахстан» — AI для госуслуг. «AI-стратегия 2030».

Реальность:

Документы и стратегии. Ноль публичных моделей.

Tech5%

PR90%

Паттерн: у всех проектов PR-уровень значительно выше tech-уровня. Привлечь финансирование на волне AI-хайпа проще, чем довести проект до результата.

Рецепт «казахской LLM» за 7 шагов

Типичная последовательность, которую проходит большинство подобных проектов. Базовая модель берётся с HuggingFace (Meta Llama 3), выпущенной под открытой лицензией. Это абсолютно легально -- но называть результат «своей LLM» так же честно, как назвать собственным автомобиль с новой покраской:

Скачать Llama 3 70B с HuggingFace

15 минЛёгко

Набрать 50K казахских текстов из Wikipedia

2 часаЛёгко

Fine-tune на 4x A100 (арендовать)

2-3 дняСредне

Назвать «Первая казахская AI-модель»

5 минЛёгко

Отправить пресс-релиз в Tengri News

30 минЛёгко

Получить грант от МЦРИАП

3-6 месСредне

Проект теряет актуальность через год

12 месТипично

Итого: «Создание казахской LLM» до пресс-релиза -- ~3 дня. Реальная competitive LLM -- 2-5 лет и $100M+.

Реальная стоимость и масштаб разрыва

Сравним ресурсы, необходимые для competitive LLM, с тем, что есть у Казахстана. Данные по стоимости обучения основаны на базе данных Epoch AI по frontier-моделям и техническому отчёту Llama 2, где Meta раскрыла реальные вычислительные затраты (3.3M часов A100 для 70B модели). Стоимость аренды H100 на Google Cloud -- около $3.40/час, то есть 500K часов = $1.7B. Без собственной инфраструктуры это неподъёмно.

Метрика	Мировой уровень	Казахстан	Разрыв
Бюджет на обучение	$50-200M	~$2-5M	40-100x
GPU-часы (H100)	50K-500K	~500-2K	100x
Датасет (токены)	5-15 трлн	~2-5 млрд	3000x
Исследователи (PhD)	200-1000	~5-15	50x
Wikipedia (статьи)	6.8M (EN)	232K (KZ)	29x меньше

Что нужно для LLM vs Что есть у КЗ

Красная зона -- минимум для LLM. Синяя -- реальность Казахстана.

Нужно для LLM

Есть у КЗ

Данные

Нерешаемо

~2B токенов -- 0.04% от нужного объёма. Нельзя создать то, чего не существует.

GPU и инфра

Теоретически решаемо

GPU можно арендовать. 512 GPU Alem.Cloud куплены за $50M. Но обучение -- $50-200M. Весь AI-бюджет КЗ -- ~$15M.

Кадры

Утечка мозгов

~15 PhD vs 1000+. Каждый ML-специалист уезжает в Google/Meta/Anthropic.

Почему это нерешаемая проблема

01Данных нет и не будетФизическое ограничение

На казахском не пишут научные статьи, техдокументацию, книги по программированию. По данным Kazakh Wikipedia Stats, казахский раздел Википедии насчитывает 232K статей — для сравнения, арабский (370M носителей) имеет 1.2M статей. За 10 лет казахский интернет вырос на ~30%. Нужен рост в 3000%.

02Мультиязычные модели уже побеждаютКонкуренция

Claude, GPT-4, Gemini понимают казахский через мультиязычное обучение. По результатам бенчмарка FLORES-200, мультиязычные модели Google и Meta превосходят монолингвальные fine-tuned модели на низкоресурсных языках. Они делают это лучше любой fine-tuned Llama -- у них контекст из 100+ языков.

03Рынок слишком малЭкономика

20M казахоязычных пользователей, ~8M в интернете, ~100K тех, кому нужна LLM именно на казахском. Для сравнения: Mistral AI привлекла $1.3B при охвате всего европейского рынка. Окупить $100M+ затрат только на казахском невозможно.

Аналогия: создавать казахскую LLM -- как строить ракету для одного спутника. SpaceX запускает 1000 за раз. Казахстан конкурирует с $200B индустрией, имея $15M.

Реальная стратегия

Вместо попыток создать «свою LLM» Казахстану стоит сфокусироваться на том, что реально работает. Примеры для вдохновения: Финляндия и Норвегия успешно создают финские NLP-инструменты поверх мультиязычных моделей, не пытаясь конкурировать с OpenAI. Израиль строит специализированные инструменты для иврита. Казахстану нужна та же прагматичная стратегия:

Что работает

Использовать Claude / GPT-4 через API
Строить продукты поверх мировых моделей
Fine-tune для узких бизнес-задач
Создавать казахские датасеты для бенчмарков
Инвестировать в AI-инженеров, а не PR

Что НЕ работает

Тратить деньги на «национальную LLM»
Fine-tune Llama и называть «своя модель»
Писать «AI-стратегии» без бюджета
Проводить хакатоны ради PR
Ждать, пока государство «создаст AI»

Казахстан не производит процессоры -- но пользуется лучшими. Не строит свои ОС -- но использует лучшие. С LLM будет то же самое. Единственный честный путь -- это стать применителями, а не создателями фундаментальных моделей. Это не слабость, это прагматизм. Эстония с населением 1.3M строит лучшее цифровое государство в мире поверх существующих технологий, а не создавая собственные OS и процессоры.

Финальная мысль: настоящая AI-стратегия для Казахстана -- научить 100K разработчиков использовать Claude, GPT-4 и open-source модели для решения реальных проблем. Конкурировать нужно на уровне приложений, не фундаментальных моделей. И для этого есть смысл разобраться, кто реально учит AI в Казахстане, а кто продаёт страх.

Мадияр Хамзанов

mkhamzanov.com

Все статьи

Блог

СледующаяХватит жать Allow: дайте Claude Code полные права

Claude CodeProductivityDevTools

AmoCRM + Claude Code: один токен — и CRM говорит с тобой10 мая 2026 г.

Excel в LLM — это $2 за вопрос. Postgres + MD-схема — $0.019 мая 2026 г.

Railway vs Hetzner: когда платить $40, а когда €4 за один сервер1 мая 2026 г.

Data-to-Text без LLM: как генерировать тысячи описаний прямо в SQL1 мая 2026 г.

Гайд для начинающих: рабочее место разработчика с нуля за 1 час27 апр. 2026 г.

Сбор и анализ отзывов 2ГИС с Claude Code: готовые промпты3 апр. 2026 г.

Как найти 50 клиентов за 10 минут через 2GIS и сделать им сайт с AI25 мар. 2026 г.