Казахстанский ученый Оркен Мамырбаев разработал систему распознавания речи на казахском языке, которая превращает голосовые сообщения в текст. Проект обошелся в 54 миллиона тенге. Разработкой уже заинтересовалась крупная международная компания, передает Tengrinews.kz со ссылкой на телеканал "Хабар 24".
Казахстанский ученый Оркен Мамырбаев разработал систему распознавания речи на казахском языке, которая превращает голосовые сообщения в текст. Проект обошелся в 54 миллиона тенге. Разработкой уже заинтересовалась крупная международная компания, передает Tengrinews.kz со ссылкой на телеканал "Хабар 24".
Оркен Мамырбаев долго вынашивал идею создания полезного сервиса - еще со времен учебы в докторантуре. В создании языковой базы ему помогли филологи. Система распознавания казахской речи устроена достаточно просто - искусственный интеллект считывает звуки и затем преобразует их в печатный текст.
"Самая большая проблема при создании системы - это разработка речевого корпуса данных. Если мы данных больше можем собрать, тогда у нас нейросеть обучается и может распознавать любые слова. Если корпус маленький, тогда он некоторые слова не может распознавать. Когда мы все соединили, у нас получилось две тысячи часов речевой записи. Когда тестировали систему, точность распознавания слов составила 8 процентов. Если мы разработаем около пяти тысяч часов, тогда он может дать 90-процентный результат", - говорит Оркен Мамырбаев, заместитель гендиректора Института информационных и вычислительных технологий КН МОН Казахстана.
Сейчас система работает как чат-бот в социальной сети Telegram. Чтобы ее протестировать, достаточно нажать и удерживать кнопку записи голосового сообщения. После бот автоматически превратит речь в текст. Для удобства авторы создали диктофон, который можно использовать во время деловых совещаний, по их завершении система выдаст текстовый протокол на казахском языке. Разработкой уже заинтересовалась крупная международная компания, производящая бытовую электронику и медоборудование. Она планирует встроить систему в один из своих продуктов для казахстанского рынка.
"Проект реализовался в рамках грантового финансирования на 2018-2020 годы. Тема проекта: разработка технологии мультиязычного автоматического распознавания речи с использованием глубоких нейронных сетей. Так как проект прикладного характера, на сегодняшний день мы уже видим результаты, плоды этого проекта: распознавание речи на казахском языке. Общая сумма проекта составляла 54 миллиона тенге. Это на три года", - сказал Серик Азамбаев, руководитель Управления научных проектов КН МОН Казахстана.
В прошлом году Оркен Мамырбаев и его команда получили грант на другой IT-проект. Ученые уже работают над созданием системы автоматического поиска и анализа противоправного веб-контента.
Ранее мы писали о казахстанском ученом, который создал "альтернативное зрение" для незрячих.
Өзекті жаңалықтарды сілтемесіз оқу үшін Telegram желісінде парақшамызға тіркеліңіз!