ИИ на казахском: как ISSAI создает базы искусственного интеллекта для тюркских языков

Тематика искусственного интеллекта захватила мир за последнюю пару лет. От трендов в тиктоке до запросов в ChatGPT, ИИ все больше входит в ежедневный обиход. К сожалению, ИИ в основном представлен на английском, русском и других широко распространенных языках. Над созданием и совершенствованием ИИ на казахском языке в нашей стране трудится Институт умных систем и искусственного интеллекта (ISSAI) при Назарбаев Университете.

Тематика искусственного интеллекта захватила мир за последнюю пару лет. От трендов в тиктоке до запросов в ChatGPT, ИИ все больше входит в ежедневный обиход. К сожалению, ИИ в основном представлен на английском, русском и других широко распространенных языках. Над созданием и совершенствованием ИИ на казахском языке в нашей стране трудится Институт умных систем и искусственного интеллекта (ISSAI) при Назарбаев Университете.

С 2020 года ISSAI начал собирать базу данных голосов на казахском языке, на основе которой создал корпус казахской речи. Сейчас этот корпус содержит более 1200 часов разговора и более 600 тысяч слов. Используя эти данные, ученые разработали первую модель автоматического распознавания речи (ASR) для казахского языка.

Далее они создали первый корпус для преобразования казахского текста в речь, который можно использовать для создания более широких приложений. Модель имеет пять голосов: 2 мужских и 3 женских, общий объем составляет около 270 часов.

Используя свои достижения в казахской ASR, в 2022 году ISSAI расширил работу до многоязычной модели, которая может распознавать десять тюркских языков — азербайджанский, башкирский, чувашский, казахский, киргизский, саха, татарский, турецкий, уйгурский и узбекский. Как оказалось, многоязычные модели, обученные с использованием данных совместной речи, работали более надежно, чем базовые одноязычные модели. Причем лучшие модели достигли среднего снижения частоты ошибок на 56% и 54% соответственно.

"Результаты экспериментов показали, что снижение частоты ошибок в символах и словах было более вероятным, когда многоязычные модели обучались с использованием данных из родственных тюркских языков, чем когда они были разработаны с использованием данных из несвязанных языков, таких как английский и русский", - объяснил директор института Хусейн Атакан Варол.

Научив ИИ распознавать тюркские языки, исследователи института создали устойчивую к шуму модель многоязычного распознавания речи с длинной транскрипцией под названием Söyle, которая продемонстрировала высокую эффективность как для тюркской языковой семьи (11 языков), так и для официальных языков Организации Объединенных Наций. Данный проект институт представил на форуме Digital Bridge в этом году.

Также на этом форуме ISSAI представил проект Tilmash - модель двустороннего машинного перевода на четыре языка (казахский, русский, английский и турецкий). Эта модель по нескольким стандартным показателям конкурирует с системами перевода таких гигантов отрасли, как Google Translate и Yandex Translate.

"Наша модель была обучена с использованием множества источников данных, включая официальные правительственные сайты, новостные статьи, разговорники. В течение двух лет наша команда лингвистов тщательно изучала и совершенствовала эти данные из англоязычных ресурсов, автоматически переведенных на казахский, русский и турецкий языки", - отметил доктор Варол.

Помимо проектов с языками, ISSAI также занимается разработкой софта для очков дополненной реальности, которые должны помогать людям с нарушением памяти ориентироваться в пространстве (ExoMem). Они также разработали инструмент сегментации опухолей головного мозга на основе глубокого обучения, детектор лиц, не зависящий от входных данных, модель обнаружения и подсчета объектов в рентгенограммах грузовых автомобилей и вагонов поездов и многое другое.

Созданный в 2019 году, ISSAI является первым в своем роде в стране и регионе. Цель института - исследовать и поддерживать развитие искусственного интеллекта в Казахстане. На сегодняшний день тут работают чуть больше 40 молодых исследователей (80% - студенты), около половины из которых девушки. По многим проектам института опубликованы научные статьи в топовых мировых журналах.

В ISSAI все данные, исходные коды и модели находятся в открытом доступе и общедоступны для загрузки с их сайта. Это сделано, чтобы стимулировать исследования в области ИИ по всей Центральной Азии. По словам доктора Варола, многие местные и международные организации, в том числе Google, Yandex и Microsoft, уже скачали данные ISSAI и воспользовались ими для научных публикаций и создания приложений или моделей.