Rustem Bigari - Publication

Bigari, R. (2026). From Semantic Fragmentation to Architectural Integrity: An Ontological Approach to Government Master Data Management using the GovArch Framework. SSRN Scholarly Paper ID 6482618.
Experts and civil servants studied cases of Azerbaijan, Kazakhstan and Uzbekistan in the field of e-government during the 23rd CEPA Session

Большие языковые модели: Революция ИИ и новый этап цифровой эры

В последние годы большие языковые модели (LLM — Large Language Models) стали основой многих инновационных решений в области искусственного интеллекта. Они демонстрируют высокий уровень понимания и генерации текста, открывая новые горизонты для цифровых технологий. В этом контексте актуальной задачей для Казахстана становится создание и развитие больших языковых моделей, способных поддерживать и продвигать казахский язык в цифровом пространстве.

Что такое большие языковые модели?

Большие языковые модели представляют собой искусственные нейронные сети, обученные на огромных объемах текстовых данных. Эти модели могут выполнять широкий спектр задач: от генерации связного текста и ответов на вопросы до перевода, анализа тональности и автоматического реферирования документов. Развитие таких моделей позволяет ИИ приближаться к более естественному взаимодействию с людьми.

Почему важна казахская языковая модель?

Для сохранения языкового и культурного наследия Казахстана крайне важно, чтобы казахский язык был представлен в цифровой среде. Без качественной языковой модели казахский язык рискует остаться на периферии технологических достижений, что усложнит его использование в будущем. Большая казахская языковая модель поможет в решении сразу нескольких задач:

1. Развитие казахоязычных сервисов — от голосовых ассистентов и чат-ботов до поисковых систем.

2. Поддержка образования — создание автоматических переводчиков и коррекционных систем для студентов и преподавателей.

3. Повышение интереса к изучению языка — интеграция казахского языка в популярные приложения и игры.

4. Государственная поддержка и документооборот — автоматизация переводов и анализа официальных документов.

Текущие вызовы при создании казахской модели

Создание полноценной большой модели для казахского языка сопряжено с рядом сложностей. Основные из них:

● Недостаток текстовых данных: Казахский язык представлен в цифровой форме гораздо меньше, чем более распространённые языки, такие как английский или русский.

● Многоязычие населения: В Казахстане широко используется русский язык, что создает конкуренцию и ограничивает спрос на казахоязычные цифровые решения.

● Нюансы морфологии: Казахский язык агглютинативен, что усложняет обработку текста для алгоритмов, привыкших работать с флективными языками.

Успешные примеры и перспективы

Несмотря на вызовы, в Казахстане предпринимаются усилия по развитию казахской языковой модели. Инициативы включают проекты с открытым исходным кодом и участие в глобальных научных коллаборациях. Большая казахская языковая модель может стать не только инструментом для улучшения пользовательского опыта, но и драйвером для инновационного развития экономики.

Среди перспективных направлений использования модели:

● Государственное управление: Автоматический анализ и генерация отчетов на казахском языке.

● Образование: Чат-боты и обучающие системы, адаптированные под культурные и языковые особенности Казахстана.

● Медиа и маркетинг: Генерация уникального контента и автоматический перевод новостных лент.

● Социальные сети и развлечения: Персонализированные рекомендации и улучшение взаимодействия пользователей в мессенджерах.

Путь вперед

Для успешной реализации казахской языковой модели необходимы инвестиции в науку, сотрудничество между государственными органами и частными компаниями, а также активное участие сообщества разработчиков и лингвистов. Становится очевидным, что развитие таких технологий будет способствовать укреплению казахского языка в обществе и его популяризации среди молодежи.

Создание и развитие казахской языковой модели также имеет стратегическое значение для обеспечения цифрового суверенитета страны. В будущем Казахстан сможет не только использовать модели на основе ИИ, но и экспортировать свои решения на другие рынки, демонстрируя пример эффективного интеграции культуры и технологий.

В Казахстане ведется активная работа по созданию и развитию казахской языковой модели, направленной на поддержку и продвижение государственного языка в цифровой среде. Одним из ключевых проектов является IrbisGPT — первая национальная языковая модель с открытым исходным кодом, которая уже доступна для использования. Модель обучалась на 20 гигабайтах данных, включая статьи и новости на казахском языке. Тем не менее, разработчики подчеркивают необходимость в дополнительных данных от государственных органов для дальнейшего совершенствования проекта

Еще одним значимым проектом является KazLLM, разрабатываемый Назарбаев Университетом и АО «Национальные информационные технологии». Цель проекта — создать масштабную модель на основе 100 миллиардов токенов, используя данные из государственных архивов и других источников. Для сбора необходимых текстовых данных планируется национальная кампания на платформе Hugging Face. Первая версия KazLLM ожидается уже к концу 2024 года, а в долгосрочной перспективе проект призван поддерживать не только язык, но и ИИ-инновации в стране

Роль консорциумов в разработке KazLLM

Ключевую роль в развитии больших языковых моделей в Казахстане играют консорциумы — объединения университетов, частных компаний и государственных организаций. Эти партнерства позволяют использовать синергетический подход к созданию инфраструктуры и сбору данных.

В рамках проекта Всемирного банка KazLLM был создан Центр компетенций, объединяющий всех участников консорциума: АО “Национальные информационные технологии”, Центр поддержки цифрового правительства и Тіл-Қазына.

Сбор и подготовка данных

Для разработки KazLLM организован масштабный сбор данных на базе АО «НИТ», которое выделило специальное хранилище данных. На данный момент собрано более 1,5 млрд слов на казахском языке. В процессе сбора задействованы следующие источники:

● 5 языковых НИИ

● 6 прочих НИИ

● 61 университет

● 22 государственных органа

● Частные компании и организации, такие как Документолог, Yandex, Ikomek и Общество «Қазақ тілі».

Для расширения корпуса данных письма направлены во все государственные и квазигосударственные органы, а также в организации, где могут находиться релевантные датасеты, например, Книжную палату и Казахскую энциклопедию.

Проводится работа в Национальной библиотеке, где в электронный формат оцифровываются книги и периодическая литература на казахском языке. Проведен анализ 553 591 файла, включающих 205 481 557 словоупотреблений, с целью их классификации по тематическим категориям. В ходе работы выявлено и расшифровано 3001 аббревиатура и разработан алгоритм деперсонификации данных на основе Named EntityRecognition (NER).

Лингвистический анализ и подготовка токенайзеров

Для лингвистического анализа применены NLP-системы с открытым исходным кодом, такие как UDPipe и Stanza, для токенизации и разметки текстов. Корпус данных включает 153 760 предложений из 1 512 документов, содержащих материалы с платформы eGov.kz. Проведенный анализ подтвердил высокую морфологическую сложность казахского языка: показатель Morphemes per Word (MPW) составил более 2.5, что указывает на сложную структуру слов в языке.

Также был проведен анализ Type-To-Token Ratio (TTR) и Named Entity to Token Ratio (NTR) для оценки лексического разнообразия. По частоте использования лидируют географические названия, юридические термины и контактная информация.

В рамках подготовки модели подобраны и обучены два токенайзера: Moses Tokenizer для предварительной обработки данных и основной токенайзер на основе Byte-Pair Encoding (BPE). Эти токенайзеры оптимизированы под задачи проекта для повышения эффективности обработки данных

Обучение и тестирование модели

Для обучения KazLLM исследованы различные фреймворки и стратегии, включая Axolotl и Unsloth, что позволило ускорить обучение модели. В процессе используются методы дообучения, такие как LoRA и QLoRA. На базе консорциума подготовлена стратегия сбора дополнительных данных и начато обучение модели на LLAMA-3. Ожидается, что модель пройдет тестирование с использованием популярных метрик (BLEU, ROUGEL, METEOR) и наборов данных для проверки функциональности, таких как ARC, BoolQ и MATH.

Эти проекты — лишь начало масштабного плана по развитию ИИ и внедрению его в различные секторы экономики. Государство также создало Комитет искусственного интеллекта и развития инноваций для поддержки подобных инициатив, акцентируя внимание на этичном использовании ИИ и создании условий для роста предпринимательской активности в ИТ-сфере.я

Заключение

Большие языковые модели становятся фундаментом новой цифровой реальности, в которой языки и технологии идут рука об руку. Казахстан, развивая свою собственную казахскую языковую модель, получает уникальную возможность сохранить свое культурное наследие и ускорить технологическое развитие. Этот путь требует усилий, но он обещает принести значительные плоды как для общества, так и для экономики страны.

Rustem Bigari‪PhD‬ - ‪‪Cited by 15‬‬ - ‪Digital Transformation in Education‬ - ‪Digital Government‬ - ‪Cybersecurity‬ - ‪Data-Driven Governance‬ - ‪AI‬

Page updated

Google Sites

Report abuse