Иногда достаточно послушать речь человека, чтобы понять, что он из себя представляет и как выглядит. Теперь это умеет не только человек, но и современные технологии. TengriMIX со ссылкой на N+1.ru рассказывает, как нейросеть научили составлять портрет человека по его голосу.
Иногда достаточно послушать речь человека, чтобы понять, что он из себя представляет и как выглядит. Теперь это умеет не только человек, но и современные технологии. TengriMIX со ссылкой на N+1.ru рассказывает, как нейросеть научили составлять портрет человека по его голосу.
Профессора Массачусетского технологического института для обучения нейросети применили датасет AVSpeech из более миллиона видео и ста тысяч разных людей. Каждый файл разделен на аудио- и видеодорожку.
Один алгоритм изучает черты лица человека из видео для создания изображения, другой, используя его результаты, выдает приблизительную картинку с обликом человека, который разговаривает на видео.
Благодаря разработанному алгоритму разработчикам удалось добиться успехов в восстановлении изображений людей по голосу. Нейросеть способна угадывать пол человека, определять его приблизительный возраст, а также выдавать лицо людей, в частности с европеоидной и азиатской внешностью.
Схема работы алгоритма. © N+1.ru
Ученые признались, что составить точную картину по голосу человека пока не удается. Однако они продолжают исследовательскую работу. Этих параметров достаточно для создания анимационных аватаров.
Матрица ошибок для пола, расы и возраста. Чем контрастнее цвет по диагонали, тем точнее определен параметр. © N+1.ru
Описание алгоритма и результаты его работы доступны в препринте, опубликованном на arXiv.org.
Показать комментарии