12 декабря 2024 | 16:06

KAZ-LLM представлена Главе государства. В разработке участвовали Beeline Казахстан и QazCode

Изображение сгенерировано Mj

В Астане представили первую национальную языковую модель KAZ-LLM, разработанную для устранения языкового разрыва с помощью искусственного интеллекта. Модель была презентована Президенту Казахстана Касым-Жомарту Токаеву, став важным шагом в развитии отечественных технологий. Ее разработкой занимался Институт умных систем и искусственного интеллекта (ISSAI NU) совместно с Beeline Казахстан, QazCode и Astana Hub при координации МЦРИАП РК.

ПОДЕЛИТЬСЯ
Иконка комментария блок соц сети

В Астане представили первую национальную языковую модель KAZ-LLM, разработанную для устранения языкового разрыва с помощью искусственного интеллекта. Модель была презентована Президенту Казахстана Касым-Жомарту Токаеву, став важным шагом в развитии отечественных технологий. Ее разработкой занимался Институт умных систем и искусственного интеллекта (ISSAI NU) совместно с Beeline Казахстан, QazCode и Astana Hub при координации МЦРИАП РК.

В последние годы в области генеративного искусственного интеллекта, особенно в сфере больших языковых моделей (LLM), наблюдается значительный прогресс. Модели, такие как GPT-4, LLaMA и Gemini, установили новые стандарты, продемонстрировав впечатляющие уровни сложности и функционала. Однако подобные достижения в основном охватывают языки с высоким уровнем доступности, такие как английский, китайский, японский и русский. Недостаток ресурсов для других языков создает языковой разрыв в ИИ, что влияет на качество пользовательского опыта, усиливает предвзятость и способствует цифровому неравенству.

11 декабря в Астане Президенту Казахстана Касым-Жомарту Токаеву была представлена национальная языковая модель KAZ-LLM. Модель была разработана под руководством Института умных систем и искусственного интеллекта (ISSAI NU) в партнерстве с Beeline Казахстан и его ИТ-компанией QazCode, а также Astana Hub. Проект координируется Министерством цифрового развития, инноваций и аэрокосмической промышленности РК (МЦРИАП РК). Модель имеет стратегическое значение для всей страны, поскольку решает проблему языкового разрыва с помощью ИИ.

Реклама
Реклама

Как разрабатывалась модель KAZ-LLM?

Нейронная сеть основана на 150 миллиардах токенах, тщательно собранных из общедоступных источников на четырех языках: казахском, русском, английском и турецком. Это позволяет модели демонстрировать высокую точность и универсальность, обеспечивая улучшенное качество обработки текстов на различных языках и способствуя улучшению перевода. Токенами называют минимальные единицы текста, такие как слова, их части или даже отдельные символы, которые ИИ использует для анализа и понимания информации.

Интерфейс и функциональность модели были разработаны с учетом самых передовых мировых стандартов, что подтверждает высокую технологическую зрелость и широкий потенциал модели. Для оценки ее производительности использовались комплексные бенчмарки с вопросно-ответными парами, охватывающие разнообразные области знаний. Пакет бенчмарков включал в себя следующие тесты:

  • ARC (AI2 Reasoning Challenge) — проверка научного мышления через вопросы с множественным выбором.
  • GSM8K — оценка способности решать задачи по математике для начальной школы.
  • HellaSwag — тестирование логики продолжения предложений.
  • MMLU (Massive Multitask Language Understanding) — проверка знаний по 57 различным предметам.
  • Winogrande — оценка здравого смысла в двусмысленных предложениях.
  • DROP — тестирование навыков понимания прочитанного и логического мышления.

Партнерство Beeline и QazCode ускорило разработку

Ключевыми партнерами в ее создании стали Beeline Казахстан и его ИТ-компания QazCode, объединив усилия и опыт в создании языковых моделей, таких как Kaz-RoBERTA, а также в разработке ИИ-решений для малых языковых групп в сотрудничестве с зарубежными партнерами. Поддержка в виде предоставленных серверов с вычислительными мощностями 8 DGX H100 значительно ускорила процесс обучения и расширила возможности модели. Для сравнения: обычному компьютеру понадобится несколько дней, чтобы проанализировать архив из 1 миллиона фотографий. В то время как 8 серверов DGX H100, использующихся для обучения ISSAI KAZ-LLM, справятся с этой задачей всего за несколько секунд.

На базе этих серверов разработчики обучили две версии модели — с 8 миллиардами и 70 миллиардами параметров, к процессу присоединились дата-сайентисты QazCode.

Алексей Шаравар, CEO QazCode. Фото: Beeline

"Наша команда активно участвовала в разработке и обучении модели KAZ-LLM. При создании LLM разработчики и партнеры использовали современные технологии машинного обучения, такие как PyTorch и Torchtune, а также учитывали опыт предыдущих проектов по адаптации open source архитектур LLM для казахского языка. В ходе обучения, которое продолжалось 50 дней непрерывных вычислений, модель улучшила способность понимать контекст и обеспечивать высокое качество взаимодействия с пользователями. Тестирование показало, что модель успешно решает технические задачи, учитывая культурные и языковые особенности казахского языка",- поделился СЕО QazCode Алексей Шаравар.

О результатах и перспективах KAZ-LLM

Исследователи отмечают, что проект - это важная веха на пути Казахстана на мировой арене искусственного интеллекта.

"Эта модель отражает стремление Казахстана к инновациям, самостоятельности и росту своей технологической экосистемы. Наша команда подготовила две версии ISSAI KAZ-LLM с 8 миллиардами и 70 миллиардами параметров, построенные на архитектуре Meta Llama и оптимизированные для высокопроизводительных систем и сред с ограниченными ресурсами. Модели выпущены по лицензии CC-BY-NC, которые доступны для некоммерческого использования на сайте Hugging Face, способствуя глобальному академическому и исследовательскому сотрудничеству. Таким образом, разработчики смогут скачать и запустить нашу модель как на сложных серверах, так и на ноутбуках", - рассказал директор ISSAI, профессор NU Хусейн Атакан Варол.

Ожидается, что ISSAI Kaz-LLM откроет новые возможности для создания стартапов и инновационных проектов на базе ИИ. В дальнейшем планируется разработка моделей следующего поколения, которые будут интегрировать языковые и визуальные данные, что позволит значительно расширить возможности ИИ. Также рассматривается добавление поддержки модели других тюркских языков, что позволит укрепить связи между тюркоязычными сообществами.

Материал предоставлен QazCode

Показать комментарии
Читайте также
Реклама
Реклама
Join Telegram Последние новости
Лого TengriNews мобильная Лого TengriSport мобильная Лого TengriLife мобильная