Исследователи Института интеллектуальных систем и искусственного интеллекта (ISSAI) Nazarbayev University (NU) представили Главе государству Касым-Жомарту Токаеву большую языковую модель казахского языка ISSAI KAZ-LLM, разработанную на основе нейронной сети. Это основа казахского чата GPT.
Исследователи Института интеллектуальных систем и искусственного интеллекта (ISSAI) Nazarbayev University (NU) представили Главе государству Касым-Жомарту Токаеву большую языковую модель казахского языка ISSAI KAZ-LLM, разработанную на основе нейронной сети. Это основа казахского чата GPT.
Применение уникальной языковой модели KAZ-LLM
Языковая модель может быть применена повсеместно: от переводов казахского языка и генерации контента до обработки объемных текстов.
Адаптированная к уникальному многоязычному и мультикультурному контексту страны модель разработана для казахского, русского и английского языков с дополнительной поддержкой турецкого, что позволяет устранить языковые пробелы и продвинуть генеративный искусственный интеллект для языков с ограниченными ресурсами.
Команда института собрала, обработала, синтезировала и перевела более 150 миллиардов токенов (то есть слов или подслов), что обеспечило надежную языковую работу. Уровень обучения данной модели очень высок и конкурирует в результатах на казахском, русском и английском языках на уровне мировых лидеров в области искусственного интеллекта.
Помимо этого, языковая нейросеть предоставила практический опыт местным IT-талантам, укрепив возможности национального искусственного интеллекта. Проект способствует не только созданию передового инструмента искусственного интеллекта, но и росту числа казахстанских специалистов в области искусственного интеллекта. В разработке участвовали казахстанские исследователи. Сотрудничество с ведущими казахстанскими институтами позволило создать инструменты сравнительного анализа и наборы данных, адаптированные для казахского языка с помощью лингвистов и передовых методов машинного перевода.
Стремление Казахстана к инновациям
Проект, профинансированный эндаумент-фондом NU и NIS, был начат в апреле этого года. Данные были собраны из общедоступных источников, включая казахские веб-сайты, новостные статьи и онлайн-библиотеки. Были также использованы данные, предоставленные различными организациями.
"Эта модель отражает стремление Казахстана к инновациям, самостоятельности и росту своей технологической экосистемы. Наша команда подготовила две версии ISSAI KAZ-LLM с 8 миллиардами и 70 миллиардами параметров, построенные на архитектуре Meta Llama и оптимизированные для высокопроизводительных систем и сред с ограниченными ресурсами. Модели выпущены по лицензии CC-BY-NC, которые доступны для некоммерческого использования на сайте Hugging Face, способствуя глобальному академическому и исследовательскому сотрудничеству. Таким образом разработчики смогут скачать и запустить нашу модель как на сложных серверах, так и на ноутбуках", - рассказал директор ISSAI, профессор NU Хусейн Атакан Варол.
Фото: пресс-служба Nazarbayev University