Подписывайтесь на канал Tengrinews.kz в WhatsApp
19 апреля 2021 12:23

Ученые НУ создали первые цифровые казахские голоса открытого доступа - Исеке и Рая

Мейирим Смайыл выпускающий редактор

ПОДЕЛИТЬСЯ

Иллюстративное фото:elements.envato.com Иллюстративное фото:elements.envato.com

Появились первые казахские цифровые голоса. Ученые Назарбаев Университета, разработавшие программу, считают ее важным шагом для построения полноценного голосового помощника (условной "казахской Siri"). Что интересного могут рассказать Исеке и Рая и где они "наговаривают" текст - в материале Tengrinews.kz.


Появились первые казахские цифровые голоса. Ученые Назарбаев Университета, разработавшие программу, считают ее важным шагом для построения полноценного голосового помощника (условной "казахской Siri"). Что интересного могут рассказать Исеке и Рая и где они "наговаривают" текст - в материале Tengrinews.kz.

Ученые из Института интеллектуальных систем и искусственного интеллекта (ISSAI) Назарбаев Университета создали два цифровых казахских голоса - мужской и женский.

Мужской голос назвали Исеке, женский - Рая. Это производные от настоящих имен двух дикторов, чьи голоса легли в основу синтетических голосов. Они проделали большую работу, наговорили много слов, фраз, звуков, букв и чисел, чтобы цифровые Исеке и Рая без труда произносили как знакомые и распространенные, так и неизвестные или даже несуществующие слова.

Исеке и Рая станут первыми цифровыми казахскими голосами, которые вы когда-либо слышали. Протестировать и послушать их можно здесь. Пока в демо-версии.

По сути, это просто озвучивание казахского текста, но такое в Казахстане создали впервые, и, как оказалось, разработка требует очень большой работы.

"Над этим проектом мы начали работать в середине 2020 года. Основной частью работы были сбор данных и обработка, а это много вычислительных и человеческих ресурсов и много времени. Работа с большими данными была самой сложной, самой важной частью, отсутствие данных, особенно в открытом доступе, препятствовало развитию технологии синтеза казахской речи. Оставшееся время мы потратили на написание кода и обучение моделей", - рассказал один из разработчиков постдокторант ISSAI Ерболат Хасанов.

Можно ли назвать Исеке и Раю "казахской Siri"?

Этот вопрос первым делом приходит на ум, когда слышишь цифровую казахскую речь. Но, как оказалось, тут все непросто.

"Наша разработка преобразовывает текст в аудио, когда как Сири использует голосовые запросы, чтобы отвечать на вопросы, дает рекомендации и выполняет разные действия. Сири включает в себя комплекс разных взаимосвязанных модулей, и преобразование текста в аудио всего лишь является одной из ее частей. Из-за этого нашу разработку пока рано называть "казахской Siri". Несмотря на это, мы считаем наш проект важным шагом для построения "казахской Siri", - поделился Ерболат Хасанов.

Стоит отметить, всю базу данных, которую собрали и обработали ученые Назарбаев Университета, полученный опыт и знания, разработанные технологии - все это они предоставляют в открытом доступе для всех желающих. А вместе с собранными данными они также делятся кодом разработки и предварительно обученными моделями. Ученые решили открыть весь свой опыт, чтобы другие разработчики использовали его для еще большего развития казахстанских технологий искусственного интеллекта и продвижения казахского языка. С помощью этих данных любой желающий может построить свой синтезатор казахской речи, используя технологии, удобные для своих нужд.

Чем могут быть полезны Исеке и Рая?

"Технологии преобразования текста в речь необходимы во многих приложениях, таких как навигация, объявления, интеллектуальные помощники и другие устройства с поддержкой речи. Они обеспечивают доступность для людей с ослабленным зрением и возможности взаимодействия человека с машиной без необходимости использования визуальных и тактильных интерфейсов. Следовательно, эта технология необходима и полезна для любого языка", - рассказал Ерболат Хасанов.

Это еще не все. Ранее мы писали о том, что ученые Назарбаев Университета сделали возможным автоматическое распознавание казахской речи. Для этого они записали и обработали две тысячи голосов, собрали огромную базу аудиоданных на казахском языке. 

"В ISSAI у нас есть дорожная карта по созданию всех подобных технологий для казахского языка к середине 2022 года. Мы называем эти технологии "Мягкой (от английского Soft) цифровой инфраструктурой Казахстана", - отметил Ерболат Хасанов.

Пока вы можете послушать, как Исеке рассказывает о знаменитом поэте и композиторе, создателе кобыза Коркыт ата.

Хочешь получать главные новости на свой телефон? Подпишись на наш Telegram-канал!

Tengrinews.kz также есть в Aitu! Добавляйтесь к нам!

Читайте также
Join Telegram

Курс валют

 446.77   483   4.85 

 

Погода

 

Редакция Реклама
Социальные сети