Представьте, что можно понять собаку каждый раз, когда она лает, скулит или рычит. Такую возможность предоставило недавнее исследование ученых из Мичиганского университета в сотрудничестве с Национальным институтом астрофизики, оптики и электроники в Пуэбле, Мексика. Его результаты были представлены на Объединенной международной конференции по вычислительной лингвистике, языковым ресурсам и оценке.
Исследователи выяснили, как искусственный интеллект может интерпретировать вокальные сигналы собак, отличая игривый лай от агрессивного рычания и даже определяя такие характеристики, как возраст, порода и пол собаки. Полученные результаты свидетельствуют о том, что модели ИИ, изначально разработанные для человеческой речи, могут быть адаптированы для анализа способов коммуникации животных, открывая новые пути к общению с домашними любимцами.
Собаки известны своей сильной привязанностью к человеку и часто воспринимаются как верные компаньоны, которые глубоко нас понимают. Однако наше представление о них, в частности об их вокальной коммуникации, все еще ограниченное. Используя передовые технологии искусственного интеллекта, ученые попытались расшифровать вокальные сигналы собак, что может не только улучшить отношения между человеком и собакой, но и повысить уровень благополучия животных за счет лучшего понимания их потребностей и эмоций.
Чтобы изучить эту возможность, исследователи собрали данные о лае 74 собак в Тепике и Пуэбле (Мексика). Собаки в возрасте от пяти до 84 месяцев, средний возраст — 35 месяцев, были преимущественно чихуахуа, французскими пуделями и шнауцерами. Записи были сделаны в естественной домашней обстановке, чтобы зафиксировать подлинные вокальные реакции собак.
Исследователи подвергали собак воздействию различных стимулов, призванных вызвать различные типы вокализации. Эти стимулы включали в себя такие ситуации, как присутствие незнакомца, игра, ласковые слова и даже имитация нападения на хозяина. Вокализации были записаны на камеру Sony CX405 Handycam, и для анализа использовались только аудиокомпоненты.
«Вокальные сигналы животных гораздо сложнее получить и записать, — говорит Артем Абзалиев, ведущий автор исследования и докторант Мичиганского университета в области компьютерных наук и инженерии. — Их приходится записывать в дикой природе или, в случае с домашними животными, с разрешения владельцев».
Затем аудиозаписи были разделены на более короткие фрагменты продолжительностью от 0,3 до пяти секунд и вручную аннотированы в зависимости от контекста, в котором они прозвучали. В результате аннотирования были выделены четырнадцать отдельных категорий вокализаций, таких как очень агрессивный лай на незнакомца, обычный лай на незнакомца, лай, вызванный нападением на хозяина, и игривый лай во время игр.
В основе анализа лежит использование сложной модели искусственного интеллекта Wav2Vec2, изначально разработанной для распознавания человеческой речи. Исследователи доработали эту модель с помощью набора данных собачьих вокализаций, изучив несколько задач. Эти задачи включали в себя идентификацию собак по их лаю, определение породы собаки по ее вокализации, пола собаки и привязку лая к конкретному контексту.
Модель искусственного интеллекта продемонстрировала поразительную способность распознавать отдельных особей по их лаю. Модель, обученная на данных о человеческой речи, значительно превзошла модель, обученную с нуля. Она достигла почти 50% точности по сравнению с 24% у модели, обученной исключительно на данных о собаках. Следовательно, предварительное обучение на человеческой речи обеспечивает надежную основу для понимания моделью сложных структур в вокализации животных.
«Используя модели ИИ, обученные на человеческой речи, наше исследование открывает новое окно в то, как мы можем использовать уже созданное нами в области обработки речи, чтобы начать понимать нюансы собачьего лая», — говорит Рада Михалча, профессор компьютерных наук и инженерии и директор лаборатории ИИ Мичиганского университета.
Во-вторых, модель ИИ успешно определила породу собаки по ее лаю. Предварительно обученная модель достигла более высокой точности (62%) по сравнению с моделью, обученной по лаю (60%). Этот результат говорит о том, что различные породы собак имеют отличительные вокальные паттерны, которые ИИ может распознать, подобно тому как можно определить акцент в человеческой речи.
Третья задача — определение пола собаки по ее вокализации — оказалась более сложной. Хотя модель, обученная с нуля, показала лучшие результаты, чем базовая, предварительное обучение на человеческой речи не привело к значительному повышению точности определения пола. Значит, голосовые сигналы, связанные с полом, могут быть менее выраженными или более сложными для распознавания ИИ по сравнению с распознаванием породы или отдельной особи.
И наконец, модель ИИ отлично справилась с привязкой лая к конкретному контексту. Она могла различать типы лая, например очень агрессивный лай на незнакомца и обычный лай на незнакомца. Предварительно обученная модель достигла наивысшей точности в этой задаче, что подчеркивает преимущества использования предварительного обучения человеческой речи для понимания вокализации животных.
«Это первый случай, когда инструменты, оптимизированные для человеческой речи, были использованы для расшифровки коммуникации животных, — говорит Михалча. — Наши результаты показывают, что звуки и паттерны, полученные из человеческой речи, могут служить основой для анализа и понимания акустических паттернов других звуков, например вокализации собак».
Хотя результаты исследования многообещающие, у него есть несколько ограничений. Во-первых, набор данных был ограничен небольшим количеством пород и относительно однородной выборкой. Будущие исследования должны включать более широкий спектр пород собак и более разнообразные выборки, чтобы убедиться, что модели ИИ могут обобщать различные популяции.
Кроме того, исследование было сосредоточено исключительно на домашних собаках. Если распространить это исследование на другие виды, например птиц или морских млекопитающих, то можно получить дополнительные сведения о коммуникации животных. Исследователи также использовали одну архитектуру ИИ — Wav2Vec2. Изучение других моделей нейронных сетей может выявить более эффективные и точные методы анализа вокализации животных.
Другое исследование, проведенное в рамках проекта Family Dog Project в Университете Лоранда Этвеша в Будапеште, приближает к ответу, что происходит в голове вашей собаки, когда она с нетерпением ищет свою любимую игрушку. Ученые обнаружили, что собаки создают «мультимодальные мысленные образы» знакомых объектов. Это означает, что они помнят и думают о предметах, таких как их игрушки, с помощью различных признаков, например внешнего вида и запаха.