«Мы создадим свою казахскую LLM» -- фраза, которую повторяют каждые 6 месяцев разные люди, с одинаковым результатом: ноль. Дело не в деньгах или кадрах. Дело в фундаментальной математической невозможности.
Взгляд изнутри: почему я пишу это
Я ML-инженер. Я видел, как в Казахстане презентуют «казахскую AI» на конференциях, как журналисты Tengri News пишут о «прорыве», как стартаперы привлекают гранты. И каждый раз, когда я смотрел на техническую часть -- это был fine-tuned Llama с 50K казахских текстов. Маркетинг на уровне 10/10, техника на уровне 1/10.
Проблема не в том, что люди плохие или некомпетентные. Проблема в том, что никто честно не объясняет, что стоит за настоящей LLM. Anthropic потратила сотни миллионов долларов и годы на обучение Claude 3. OpenAI сожгла $100M+ только на GPT-4. По данным Epoch AI, вычислительные мощности для frontier-моделей растут в 4-5x в год, и разрыв между лидерами и остальными только увеличивается.
Когда я слышу «мы создадим казахскую LLM», я задаю один вопрос: а вы читали LLaMA paper или Llama 2 tech report? Там честно написано: для обучения Llama 2 (70B) использовали 2 трлн токенов и 3.3M GPU-часов на A100. У нас нет ни данных, ни железа, ни денег. Это не пессимизм -- это арифметика.
Личное мнение: я хочу, чтобы казахский язык развивался в цифровом пространстве. Но честный путь -- не имитация OpenAI, а создание казахских датасетов, бенчмарков и приложений поверх мировых моделей. Именно это принесёт реальную пользу.
Корень проблемы: данных не существует
LLM -- это функция от данных. Нет данных -- нет модели. Весь интернет на казахском -- примерно 2 млрд токенов. English-корпус для GPT-4 и Claude 3 -- 5+ трлн токенов. Разница в 2500-3000 раз. Это подтверждается анализом Common Crawl -- крупнейшего веб-архива для LLM, где казахский составляет менее 0.1% контента, а также исследований по составу обучающих корпусов. Академическая работа «KazNLP: Resources for Kazakh NLP» честно признаёт: объём и качество казахских текстовых данных остаются критическим ограничением.
Проблема глубже, чем объём. Большинство текстов на казахском -- переводы с русского (50%+), госдокументы, дубликаты новостей и автогенерация. Качественных научных, технических и литературных текстов на казахском практически нет. По данным W3Techs, казахский используется менее чем на 0.1% сайтов в мире. Для сравнения: даже турецкий язык (~80M носителей) представлен в 40 раз больше в Common Crawl, что объясняет, почему турецкие LLM-инициативы хотя бы имеют шансы.
Объём обучающих данных по языкам
Млрд токенов для обучения LLM. Казахский практически невидим на графике.
Kazakh: ~2B tokens = 0.04% от English. Это как строить небоскрёб из 10 кирпичей.
Суть проблемы: даже если собрать ВСЕ тексты на казахском из всего интернета -- их в 3000 раз меньше нужного. Нельзя купить данные, которых не существует.
Все попытки создать «казахскую LLM»
За 3 года несколько организаций объявляли о создании казахской LLM. Вот что вышло. Академические исследования ведутся в Назарбаев Университете и публикуются на конференциях ACL/EMNLP, однако разрыв между академической NLP-моделью и production LLM -- пропасть. Отдельно стоит заметить, что казахстанские банки также пытаются играть в эту игру, не будучи исключением из паттерна:
«Первая казахская LLM». Партнёрство с университетами.
Fine-tuned Llama 2 на ~50K текстах. Проигрывает базовой Llama 3. Проект заморожен.
«Лучшая модель для казахского языка». Генерация описаний товаров.
Fine-tuned модель для узкой задачи. Не general-purpose LLM.
NLP-исследования для казахского. Публикации на ACL/EMNLP.
Академические модели BERT-уровня. Не production LLM. Нет ресурсов для масштабирования.
«Цифровой Казахстан» — AI для госуслуг. «AI-стратегия 2030».
Документы и стратегии. Ноль публичных моделей.
Паттерн: у всех проектов PR-уровень значительно выше tech-уровня. Привлечь финансирование на волне AI-хайпа проще, чем довести проект до результата.
Рецепт «казахской LLM» за 7 шагов
Типичная последовательность, которую проходит большинство подобных проектов. Базовая модель берётся с HuggingFace (Meta Llama 3), выпущенной под открытой лицензией. Это абсолютно легально -- но называть результат «своей LLM» так же честно, как назвать собственным автомобиль с новой покраской:
Скачать Llama 3 70B с HuggingFace
Набрать 50K казахских текстов из Wikipedia
Fine-tune на 4x A100 (арендовать)
Назвать «Первая казахская AI-модель»
Отправить пресс-релиз в Tengri News
Получить грант от МЦРИАП
Проект теряет актуальность через год
Итого: «Создание казахской LLM» до пресс-релиза -- ~3 дня. Реальная competitive LLM -- 2-5 лет и $100M+.
Реальная стоимость и масштаб разрыва
Сравним ресурсы, необходимые для competitive LLM, с тем, что есть у Казахстана. Данные по стоимости обучения основаны на базе данных Epoch AI по frontier-моделям и техническому отчёту Llama 2, где Meta раскрыла реальные вычислительные затраты (3.3M часов A100 для 70B модели). Стоимость аренды H100 на Google Cloud -- около $3.40/час, то есть 500K часов = $1.7B. Без собственной инфраструктуры это неподъёмно.
| Метрика | Мировой уровень | Казахстан | Разрыв |
|---|---|---|---|
| Бюджет на обучение | $50-200M | ~$2-5M | 40-100x |
| GPU-часы (H100) | 50K-500K | ~500-2K | 100x |
| Датасет (токены) | 5-15 трлн | ~2-5 млрд | 3000x |
| Исследователи (PhD) | 200-1000 | ~5-15 | 50x |
| Wikipedia (статьи) | 6.8M (EN) | 232K (KZ) | 29x меньше |
Что нужно для LLM vs Что есть у КЗ
Красная зона -- минимум для LLM. Синяя -- реальность Казахстана.
~2B токенов -- 0.04% от нужного объёма. Нельзя создать то, чего не существует.
GPU можно арендовать. 512 GPU Alem.Cloud куплены за $50M. Но обучение -- $50-200M. Весь AI-бюджет КЗ -- ~$15M.
Почему это нерешаемая проблема
На казахском не пишут научные статьи, техдокументацию, книги по программированию. По данным Kazakh Wikipedia Stats, казахский раздел Википедии насчитывает 232K статей — для сравнения, арабский (370M носителей) имеет 1.2M статей. За 10 лет казахский интернет вырос на ~30%. Нужен рост в 3000%.
Claude, GPT-4, Gemini понимают казахский через мультиязычное обучение. По результатам бенчмарка FLORES-200, мультиязычные модели Google и Meta превосходят монолингвальные fine-tuned модели на низкоресурсных языках. Они делают это лучше любой fine-tuned Llama -- у них контекст из 100+ языков.
20M казахоязычных пользователей, ~8M в интернете, ~100K тех, кому нужна LLM именно на казахском. Для сравнения: Mistral AI привлекла $1.3B при охвате всего европейского рынка. Окупить $100M+ затрат только на казахском невозможно.
Аналогия: создавать казахскую LLM -- как строить ракету для одного спутника. SpaceX запускает 1000 за раз. Казахстан конкурирует с $200B индустрией, имея $15M.
Реальная стратегия
Вместо попыток создать «свою LLM» Казахстану стоит сфокусироваться на том, что реально работает. Примеры для вдохновения: Финляндия и Норвегия успешно создают финские NLP-инструменты поверх мультиязычных моделей, не пытаясь конкурировать с OpenAI. Израиль строит специализированные инструменты для иврита. Казахстану нужна та же прагматичная стратегия:
- Использовать Claude / GPT-4 через API
- Строить продукты поверх мировых моделей
- Fine-tune для узких бизнес-задач
- Создавать казахские датасеты для бенчмарков
- Инвестировать в AI-инженеров, а не PR
- Тратить деньги на «национальную LLM»
- Fine-tune Llama и называть «своя модель»
- Писать «AI-стратегии» без бюджета
- Проводить хакатоны ради PR
- Ждать, пока государство «создаст AI»
Казахстан не производит процессоры -- но пользуется лучшими. Не строит свои ОС -- но использует лучшие. С LLM будет то же самое. Единственный честный путь -- это стать применителями, а не создателями фундаментальных моделей. Это не слабость, это прагматизм. Эстония с населением 1.3M строит лучшее цифровое государство в мире поверх существующих технологий, а не создавая собственные OS и процессоры.
Финальная мысль: настоящая AI-стратегия для Казахстана -- научить 100K разработчиков использовать Claude, GPT-4 и open-source модели для решения реальных проблем. Конкурировать нужно на уровне приложений, не фундаментальных моделей. И для этого есть смысл разобраться, кто реально учит AI в Казахстане, а кто продаёт страх.