Искусственный интеллект научился различать голоса в толпе
Девайсы типа Echo Amazon и Google Home способны обрабатывать голосовые команды отдельного человека, однако до недавних пор они с трудом могли уловить нить разговора на шумной вечеринке, где параллельно общаются сразу несколько людей. Теперь ИИ научился в реальном времени выделять нужные голоса в потоке речи нескольких спикеров, пишет New Scientist.
Технология, разработанная исследователями Лаборатории Mitsubishi Electric в Кембридже, штат Массачусетс, впервые была продемонстрирована на выставке Comined Exhibition of Advanced Technologies в Токио. Она работает на основе машинного обучения. Система способна «распутывать» несколько голосов, различая уникальные «голосовые отпечатки» нескольких спикеров, и затем восстанавливать речь того или иного человека.
Разработка была протестирована на 100 английских спикерах, однако она может отличать голоса даже если говорящий является носителем другого языка. Когда в микрофон одновременно говорили два человека, система определяла кому принадлежат голоса с точностью до 90%. Если нужно было «распутать» речь трех говорящих, точность результата составляла 80%. Ни с одним их ораторов система ранее не была «знакома».
Решение проблемы под названием «эффект коктейльной вечеринки», которая не один год преследовала исследования в сфере ИИ, поможет умным голосовым помощникам улучшить свою работу. Кроме того, она позволит правоохранительным органам восстановить важные для расследований записи разговоров, которые было сложно разобрать из-за шумовых помех.
На предварительных тестах система смогла распознать голоса пяти человек, говорящих одновременно. В настоящее время Mitsubishi разрабатывает технологию распознавания голоса в лифтах, кондиционерах и рядом с другими объектами, которые являются источниками шума.