ОЦЕНИТЕ РАБОТУ АКИМА
22 декабря 2023 | 13:02

ИИ на казахском: как ISSAI создает базы искусственного интеллекта для тюркских языков

ПОДЕЛИТЬСЯ

Тематика искусственного интеллекта захватила мир за последнюю пару лет. От трендов в тиктоке до запросов в ChatGPT, ИИ все больше входит в ежедневный обиход. К сожалению, ИИ в основном представлен на английском, русском и других широко распространенных языках. Над созданием и совершенствованием ИИ на казахском языке в нашей стране трудится Институт умных систем и искусственного интеллекта (ISSAI) при Назарбаев Университете.


Иконка комментария блок соц сети

Тематика искусственного интеллекта захватила мир за последнюю пару лет. От трендов в тиктоке до запросов в ChatGPT, ИИ все больше входит в ежедневный обиход. К сожалению, ИИ в основном представлен на английском, русском и других широко распространенных языках. Над созданием и совершенствованием ИИ на казахском языке в нашей стране трудится Институт умных систем и искусственного интеллекта (ISSAI) при Назарбаев Университете.

С 2020 года ISSAI начал собирать базу данных голосов на казахском языке, на основе которой создал корпус казахской речи. Сейчас этот корпус содержит более 1200 часов разговора и более 600 тысяч слов. Используя эти данные, ученые разработали первую модель автоматического распознавания речи (ASR) для казахского языка.

Далее они создали первый корпус для преобразования казахского текста в речь, который можно использовать для создания более широких приложений. Модель имеет пять голосов: 2 мужских и 3 женских, общий объем составляет около 270 часов.

Используя свои достижения в казахской ASR, в 2022 году ISSAI расширил работу до многоязычной модели, которая может распознавать десять тюркских языков — азербайджанский, башкирский, чувашский, казахский, киргизский, саха, татарский, турецкий, уйгурский и узбекский. Как оказалось, многоязычные модели, обученные с использованием данных совместной речи, работали более надежно, чем базовые одноязычные модели. Причем лучшие модели достигли среднего снижения частоты ошибок на 56% и 54% соответственно.

"Результаты экспериментов показали, что снижение частоты ошибок в символах и словах было более вероятным, когда многоязычные модели обучались с использованием данных из родственных тюркских языков, чем когда они были разработаны с использованием данных из несвязанных языков, таких как английский и русский", - объяснил директор института Хусейн Атакан Варол.

Научив ИИ распознавать тюркские языки, исследователи института создали устойчивую к шуму модель многоязычного распознавания речи с длинной транскрипцией под названием Söyle, которая продемонстрировала высокую эффективность как для тюркской языковой семьи (11 языков), так и для официальных языков Организации Объединенных Наций. Данный проект институт представил на форуме Digital Bridge в этом году.

Также на этом форуме ISSAI представил проект Tilmash - модель двустороннего машинного перевода на четыре языка (казахский, русский, английский и турецкий). Эта модель по нескольким стандартным показателям конкурирует с системами перевода таких гигантов отрасли, как Google Translate и Yandex Translate.

"Наша модель была обучена с использованием множества источников данных, включая официальные правительственные сайты, новостные статьи, разговорники. В течение двух лет наша команда лингвистов тщательно изучала и совершенствовала эти данные из англоязычных ресурсов, автоматически переведенных на казахский, русский и турецкий языки", - отметил доктор Варол.

Помимо проектов с языками, ISSAI также занимается разработкой софта для очков дополненной реальности, которые должны помогать людям с нарушением памяти ориентироваться в пространстве (ExoMem). Они также разработали инструмент сегментации опухолей головного мозга на основе глубокого обучения, детектор лиц, не зависящий от входных данных, модель обнаружения и подсчета объектов в рентгенограммах грузовых автомобилей и вагонов поездов и многое другое.

Созданный в 2019 году, ISSAI является первым в своем роде в стране и регионе. Цель института - исследовать и поддерживать развитие искусственного интеллекта в Казахстане. На сегодняшний день тут работают чуть больше 40 молодых исследователей (80% - студенты), около половины из которых девушки. По многим проектам института опубликованы научные статьи в топовых мировых журналах.

В ISSAI все данные, исходные коды и модели находятся в открытом доступе и общедоступны для загрузки с их сайта. Это сделано, чтобы стимулировать исследования в области ИИ по всей Центральной Азии. По словам доктора Варола, многие местные и международные организации, в том числе Google, Yandex и Microsoft, уже скачали данные ISSAI и воспользовались ими для научных публикаций и создания приложений или моделей.

Партнерский материал
Читайте также
Join Telegram
Лого TengriSport мобильная Лого TengriLife мобильная Иконка меню мобильная
Иконка закрытия мобильного меню

Курс валют

 496.01   523.53   4.96 

 

Погода

 

Редакция Реклама
Социальные сети