Google разработал ИИ для синтеза речи, голос которого нельзя отличить от человеческого
Исследователи из компании Google в декабре опубликовали исследование, в котором они представили систему речевого воспроизведения текстов Tacotron 2, которая может полностью повторить голос человека. Об исследовании пишет Quartz.
В основе технологии — две нейросети глубокого обучения. Первая преобразовывает текст в спектрограмму (изображает аудиочастоты в зависимости от времени). Затем спектрограмму отправляют в нейросеть WaveNet, которая и создает необходимые звуки.
Система способна обрабатывать сложные слова и имена, а также изменять интонацию в зависимости от пунктуации. В Google разместили аудиозаписи с голосом системы на своем сайте. Как отмечает издание, сейчас у системы есть недостаток — ее обучали подражать женскому голосу. Чтобы система начала имитировать голос мужчины или другой женщины, Google придется тренировать систему заново.
В апреле 2017 года канадский стартап Lyrebird представил нейросетевой сервис, способный после минуты обучения воссоздать голос человека. Уже тогда алгоритм был способен эмоционально окрасить голос, изменив его на сердитый, веселый или грустный.
А летом этого года исследователи из Вашингтонского университета обучили нейросеть внедрять аудиозапись с голосом человека в видео. Алгоритмы научились создавать фейковые видео на основе речей Барака Обамы.