Нейросеть научили рисовать лицо человека по его голосу

Реальные изображения людей, восстановленные изображения и изображения, сделанные на основе голоса. © N+1.ru

Иногда достаточно послушать речь человека, чтобы понять, что он из себя представляет и как выглядит. Теперь это умеет не только человек, но и современные технологии. TengriMIX со ссылкой на N+1.ru рассказывает, как нейросеть научили составлять портрет человека по его голосу.

Иногда достаточно послушать речь человека, чтобы понять, что он из себя представляет и как выглядит. Теперь это умеет не только человек, но и современные технологии. TengriMIX со ссылкой на N+1.ru рассказывает, как нейросеть научили составлять портрет человека по его голосу.

Профессора Массачусетского технологического института для обучения нейросети применили датасет AVSpeech из более миллиона видео и ста тысяч разных людей. Каждый файл разделен на аудио- и видеодорожку.

Один алгоритм изучает черты лица человека из видео для создания изображения, другой, используя его результаты, выдает приблизительную картинку с обликом человека, который разговаривает на видео.

Благодаря разработанному алгоритму разработчикам удалось добиться успехов в восстановлении изображений людей по голосу. Нейросеть способна угадывать пол человека, определять его приблизительный возраст, а также выдавать лицо людей, в частности с европеоидной и азиатской внешностью.

Схема работы алгоритма. © N+1.ru

Ученые признались, что составить точную картину по голосу человека пока не удается. Однако они продолжают исследовательскую работу. Этих параметров достаточно для создания анимационных аватаров.

Матрица ошибок для пола, расы и возраста. Чем контрастнее цвет по диагонали, тем точнее определен параметр. © N+1.ru

Описание алгоритма и результаты его работы доступны в препринте, опубликованном на arXiv.org.