Новости

Искусственный интеллект научился различать голоса в толпе

Девайсы типа Echo Amazon и Google Home способны обрабатывать голосовые команды отдельного человека, однако до недавних пор они с трудом могли уловить нить разговора на шумной вечеринке, где параллельно общаются сразу несколько людей. Теперь ИИ научился в реальном времени выделять нужные голоса в потоке речи нескольких спикеров, пишет New Scientist.

Технология, разработанная исследователями Лаборатории Mitsubishi Electric в Кембридже, штат Массачусетс, впервые была продемонстрирована на выставке Comined Exhibition of Advanced Technologies в Токио. Она работает на основе машинного обучения. Система способна «распутывать» несколько голосов, различая уникальные «голосовые отпечатки» нескольких спикеров, и затем восстанавливать речь того или иного человека.

Разработка была протестирована на 100 английских спикерах, однако она может отличать голоса даже если говорящий является носителем другого языка. Когда в микрофон одновременно говорили два человека, система определяла кому принадлежат голоса с точностью до 90%. Если нужно было «распутать» речь трех говорящих, точность результата составляла 80%. Ни с одним их ораторов система ранее не была «знакома».

Решение проблемы под названием «эффект коктейльной вечеринки», которая не один год преследовала исследования в сфере ИИ, поможет умным голосовым помощникам улучшить свою работу. Кроме того, она позволит правоохранительным органам восстановить важные для расследований записи разговоров, которые было сложно разобрать из-за шумовых помех.

На предварительных тестах система смогла распознать голоса пяти человек, говорящих одновременно. В настоящее время Mitsubishi разрабатывает технологию распознавания голоса в лифтах, кондиционерах и рядом с другими объектами, которые являются источниками шума.


Есть новость? Присылайте на news@incrussia.ru