Дипломная работа за миллиарды? Что не так с национальным ИИ KazLLM

В нынешнем виде проект скорее напоминает академическую работу, чем полноценную национальную AI-инициативу.
Изображение сгенерировано нейросетью
Сфера "Нур Алем"

Президентские сомнения

В Казахстане продолжается обсуждение проекта национальной языковой модели KazLLM. В министерстве искусственного интеллекта и цифрового развития заверяют, что страна уже создала собственные большие языковые модели и развивает десятки AI-сервисов для государства и бизнеса. Однако специалисты в области искусственного интеллекта относятся к этим заявлениям гораздо осторожнее.

В феврале президент Казахстана Касым-Жомарт Токаев на расширенном заседании правительства поднял вопрос востребованности казахстанских разработок в сфере ИИ. В частности, речь зашла о национальной языковой модели KazLLM. Он указал на технические недоработки и слабый интерес по сравнению с зарубежными решениями, особенно ChatGPT.

Глава государства отметил, что, несмотря на ранее заявленный запуск программы, граждане продолжают отдавать предпочтение международным продуктам.

Отвечая на вопрос о том, сколько человек сейчас пользуется Kaz LLM,
министр пояснил, что поэтой модели было более 600 тысяч запросов. При этом в Казахстане к ChatGPT обращаются около 13% населения, более 2 млн человек.

Собственный ИИ?

В ответ на запрос редакции министерство искусственного интеллекта и цифрового развития Казахстана сообщило о развитии собственных больших языковых моделей – KazLLM и AlemLLM.

По данным ведомства, работа над национальной языковой моделью ведётся уже несколько лет.

KazLLM основана на архитектуре семейства Llama. Позже была представлена модель AlemLLM, предназначенная для работы на казахском и русском языках.

В министерстве утверждают, что вокруг этих моделей уже формируется экосистема AI-сервисов. Всего разработано 42 продукта – от систем поддержки принятия решений до цифровых консультантов для государственных услуг.

Отдельно подчёркивается, что модели работают в изолированной инфраструктуре государства. Такой подход объясняется вопросами безопасности.

По словам ведомства, это позволяет исключить утечку данных за рубеж и использовать технологии искусственного интеллекта внутри страны без риска для государственных информационных систем.

О чём умолчали в Министерстве

Но в запросе министерству остались без ответа два ключевых вопроса:

  1. Можете ли вы предоставить детализированную структуру расходования 3,9 млрд
    тенге бюджетных средств, выделенных на проект KazLLM, с разбивкой по
    каждой статье расходов?
  2. В 2024 году минИИ представляло Oylan как казахстанский чатот. Ведётся ли
    его разработка до сих пор?

Что не так с Oylan

Несмотря на громкую презентацию и заявления о "национальном ИИ", первые тесты Oylan показали, что модель пока находится на очень ранней стадии развития. Были заметны несколько системных проблем – от неточностей в ответах до банальной неспособности выполнить некоторые заявленные функции. 

Как и многие генеративные модели, Oylan может уверенно выдавать ответы, которые выглядят правдоподобно, но при этом содержат ошибки или неточности – явление, известное как "галлюцинации" ИИ. Это связано с тем, что языковые модели фактически не "знают" факты, а генерируют наиболее вероятную последовательность слов, из-за чего иногда создают убедительную, но ложную информацию.

Проблема, однако, не только в технологиях, но и в самих данных. В разговоре с BES.media социолог и эксперт в языковых моделях Николай Тернов отмечал, что одной из главных преград для развития казахских языковых моделей остаётся дефицит качественного корпуса текстов.

Даже если техническая инфраструктура и специалисты есть, критически не хватает достаточного объёма лингвистически чистого, стилистически разнообразного и тематически насыщенного казахского контента. Большая часть доступных текстов – это либо официальные документы, либо плохо структурированный интернет-контент. В условиях, когда часть новостных сайтов закрывается, а значительная доля книг до сих пор не оцифрована, языковые модели оказываются ограничены в материале для обучения.

"Чтобы языковая модель не просто "говорила", но и понимала контекст, аргументировала и анализировала, она должна быть обучена на богатом и разнообразном корпусе", – подчеркнул Тернов.

В сравнительных тестах также видно, что глобальные модели вроде ChatGPT выполняют те же задачи заметно точнее, особенно в переводе и анализе текста. Это показывает, насколько сложной задачей остаётся создание конкурентоспособной языковой модели: крупнейшие компании мира инвестируют в такие системы миллиарды долларов и обучают их на значительно больших массивах данных.

Пример работы Oylan, который забывает контекст после следующего сообщения:

Сайт oylan.nu.edu.kz
Пример работы
Сайт oylan.nu.edu.kz
Пример работы
Сайт chat.openai.com
Пример работы и понимания контекста ChatGPT

Возможно ли создать LLM без миллиардных бюджетов

Крупнейшие AI-компании мира тратят сотни миллионов долларов на разработку языковых моделей. Тем не менее, по словам эксперта по искусственному интеллекту Диаса Калкаманова, сама идея создания сильной модели без таких ресурсов не является невозможной.

"Это возможно. Мы видим, как китайские модели с открытым исходным кодом приближаются к уровню ведущих AI-лабораторий, а в ряде случаев и превосходят их. DeepSeek прославился тем, что обучил высококлассную модель на GPU H800 с ограниченной пропускной способностью межсоединений, подпадающих под экспортные ограничения. Так что технически это возможно, но потребует огромной воли, интеллектуальных ресурсов и вкуса", – сказал эксперт.

Иными словами, сама по себе идея национальной модели – не утопия. Однако вопрос в том, какую роль она будет играть и сможет ли конкурировать на мировом рынке.

Национальная модель без рынка

По мнению Диаса Калкаманова, ключевая проблема KazLLM и AlemAI – экономика проекта.

"Я не вижу коммерческого смысла в LLM, ориентированных исключительно на национальный или локальный язык. В Казахстане проживает около 20,5 млн человек, из них примерно 90 тысяч – государственные служащие, которых обяжут пользоваться такой моделью. Это капля в море", – считает он.

Эксперт отмечает, что за пределами этой аудитории спрос на казахскоязычную модель крайне ограничен.

"За пределами этой группы никто в мире не заинтересован в использовании казахскоязычной LLM, если она не демонстрирует выдающихся результатов и в других областях", – говорит Калкаманов.

По его словам, попытка превратить дообученную модель в национальный продукт выглядит сомнительно. Просто дообучить Llama 3.1 для поддержки казахского языка и считать это готовым коммерческим продуктом – очень плохая идея.

"Это потянет на дипломную работу студента третьего-четвёртого курса, но никак не на национальный проект", – резюмировал эксперт.

Глобальные модели уже умеют говорить по-казахски

Ещё один аргумент эксперта связан с тем, что многие современные модели уже поддерживают казахский язык.

"Серия моделей Qwen от Alibaba уже поддерживает казахский язык среди 119 языков и диалектов, а также другие тюркские языки, включая турецкий и узбекский", – отметил он.

Поэтому сама идея отдельной национальной модели ради поддержки языка может быть избыточной.

Насколько большая KazLLM

Министерство подчёркивает, что модель имеет версии с 8 и 70 млрд параметров. Однако в современном AI-ландшафте такие цифры уже не выглядят впечатляющими.

По словам Диаса Калкаманова, сама архитектура KazLLM уже устарела в контексте современной разработки LLM. Существуют гораздо более мощные модели меньшего размера и значительно более крупные – GLM-5 (744 млрд параметров), Kimi K2 (1 трлн параметров суммарно) и DeepSeek V3 (671 млрд параметров).

Может ли ИИ менять язык

Качество языковых моделей напрямую зависит от данных. По словам Калкаманова, ограничиться казахским и русским языками недостаточно. Чтобы модель была по-настоящему качественной, необходим английский язык, поскольку огромный объём научных и инженерных работ написан или переведён на английский.

Без этого модель неизбежно будет проигрывать глобальным системам. Однако встаёт отдельный вопрос – влияние языковых моделей на сам язык.

Калкаманов предупредил, что при обучении на переводных материалах возможны неожиданные эффекты.

"Системное свойство LLM никуда не исчезло, и модель, обученная преимущественно на переводных материалах, со временем может незаметно смещать синтаксические конструкции и словоупотребление в языке", – отметил он.

Это означает, что модель может постепенно формировать новые языковые нормы.

Что такое "42 AI-продукта"

В минцифры утверждают, что вокруг KazLLM создано более 40 сервисов. Однако многое зависит от того, как именно устроены эти системы.

Диас Калкаманов объяснил, что многое зависит от того, какой именно продукт стоит за громкими заявлениями. Если речь идёт о специализированных ИИ-системах, которые умеют выполнять конкретные задачи в определённой сфере, то в этом нет ничего необычного.

"Если эти продукты представляют собой доменно-специфичные агентные модели, то я не против. "Агентность" здесь – это просто LLM, оснащённая набором инструментов для выполнения задач в конкретной предметной области", – сказал Калкаманов.

Однако, по его словам, ситуация меняется, если под такими проектами скрываются обычные чат-боты, которые просто подключены к базе данных. Сам по себе формат чат-бота ещё ничего не говорит о сложности технологии.

Проще говоря, главный вопрос не в том, как выглядит интерфейс, а в том, что именно умеет система. Может ли она сама выполнять задачи – например, искать информацию, обрабатывать данные или запускать нужные процессы или же она лишь отвечает на вопросы пользователя.

Отдельный вопрос – лицензия модели

По словам Диаса Калкаманова, она фактически исключает коммерческое использование.

"Лицензия KazLLM CC BY-NC 4.0 прямо запрещает коммерческое использование. То есть даже формально это не может быть коммерческим продуктом", – пояснил он.

Это означает, что бизнес не сможет свободно использовать модель в своих продуктах. Эксперт считает, что в большинстве случаев проще адаптировать уже существующие решения.

"Да, дешевле использовать глобальные модели и адаптировать их под локальные задачи. Это путь, по которому идут многие компании и государства", – сказал он.

Что дальше

В нынешнем виде KazLLM, по мнению эксперта, вряд ли сможет стать основой полноценной AI-экосистемы.

"KazLLM по своей сути – коммерчески нежизнеспособный проект, навязанный государственным служащим. За пределами этой группы никто не собирается им пользоваться и никто не пользуется сейчас", – резюмировал Калкаманов.

Даже успешные открытые модели долгое время не находили аудиторию, пока не получили удобные интерфейсы. Он приводит в пример некоторые китайские модели с открытым исходным кодом, которые не находили отклика у обычных пользователей, пока не выпустили веб-интерфейс и мобильное приложение.

"Но ключевой момент в том, что эти модели демонстрируют высокий уровень и в других областях, а не только поддержку языка", – добавил он.

Именно универсальность делает языковую модель востребованной.