Наушники с искусственным интеллектом позволят вам слышать собеседника, даже если он находится на большом расстоянии

Пока система позволяет пользователю слушать только одного человека, но со временем она будет усовершенствована
Наушники с искусственным интеллектом позволят вам слышать собеседника, даже если он находится на большом расстоянии
Предоставлено пресс-службой
Пока наушники выглядят неидеально. Но всё впереди.

Команда Вашингтонского университета разработала проект, сочетающий в себе систему искусственного интеллекта и наушники. Вместе они способны, только посмотрев на нужного им говорящего человека в течение 3–5 секунд, "запомнить" его и "начать слышать" только его голос, в каком бы шумном месте всё ни происходило. Говоря более научным языком, система по указу хозяина подавлять все остальные звуки в окружающей среде, воспроизводит только голос выбранного им спикера даже в том случае, если владелец "умной" системы ​​больше не смотрит на говорящего.

Сама система получила название TSH (Target Speech Hearing, то есть целевое прослушивание речи). Разработчики уверены, что у данного устройства большой потенциал.

"Я думаю, что следующее поколение "умной" техники должно предоставить пользователям исключительный уровень контроля над звуками, которые они хотят слышать", – говорит Шьям Голлакота, автор разработки из Школы компьютерных наук и инженерии Аллена.

Чтобы использовать систему, объясняют её создатели, человек в наушниках, снабжённых микрофоном, должен коснуться кнопки, расположенной на них, и указать головой на говорящего. Звуковые волны голоса собеседника должны одновременно достичь гарнитуры. Погрешность при этом составляет 16 градусов. Наушники, в свою очередь, пошлют сигнал на встроенный компьютер, где программное обеспечение с машинным обучением запомнит желаемые вокальные отличия (паттерны) говорящего.

Затем система зафиксируется на говорящем и продолжит слышать только его голос. Способность устройства концентрироваться на нём будет улучшаться по мере того, как говорящий продолжит говорить, предоставляя системе больше обучающих данных.

Команда протестировала девайс на 21 испытуемом, которые в среднем оценили чёткость записанного голоса говорящего почти в два раза выше, чем чёткость нефильтрованного звука. Однако разработчики отмечают, что в настоящее время система TSH может регистрировать только одного говорящего за раз и только в том случае, если нет другого громкого голоса, исходящего с того же направления, что и голос целевого говорящего. Если пользователя не устраивает качество звука, он может перерегистрировать динамик для улучшения чёткости.

Концепт основан на предыдущем исследовании тех же учёных, которое они назвали "семантический слух". Он позволял людям в наушниках выбирать определённые звуки из окружающего шума, например пение определённых птиц, и прослушивать их.

Metro пообщалось с Шьямом Голлакотой, чтобы узнать подробности.

Шьям Голлакота.
Предоставлено пресс-службой
Шьям Голлакота.

Что побудило вас разработать наушники с искусственным интеллектом?

– Возможно, вы заметили, что знакомые голоса, например голоса близкого друга или родителя, легче понять в многолюдной толпе, чем голоса людей, с которыми вы встречаетесь впервые. Это связано с тем, что человеческий мозг способен сосредоточиться на речи конкретного собеседника, если заранее знать, как он звучит. Поэтому мы начали работу над проектом, чтобы понять, сможем ли мы разработать ИИ-гарнитуру, которая имитирует эту возможность и даёт человеку выбирать, что он реально хочет слышать. Например, представьте, что вы с другом гуляете по оживлённой улице и болтаете. Разве не было бы здорово иметь наушники, которые могут запоминать характеристики голоса вашего друга и подавлять уличный шум и речь прохожих, чтобы вы могли сосредоточиться на том, что говорит ваш друг? Или представьте себя туристом, внимательно слушающим рассказ гида и любующимся одним из старейших мест в мире. К сожалению, его голос заглушается речью окружающих. Но что, если бы ваши наушники могли узнать, как звучит ваш гид, и воспроизводить только его голос, приглушая всё остальное? Именно этого мы и достигли с помощью нашего изобретения.

Как этим наушникам удаётся в реальном времени воспроизводить только голос зарегистрированного собеседника?

– Это довольно сложная задача, поскольку люди очень чувствительны к задержке между зрительными и слуховыми сигналами. Такая задержка может быть максимально дискомфортной, поэтому мы стремились к тому, чтобы подача сигнала происходила максимально быстро. Нам надо было научить машину получать, обрабатывать аудиоданные, а затем воспроизводить чистую речь обратно в ухо, и всё это за одну сотую долю секунды. Кроме того, гарнитура не имеет такого огромного графического процессора, который используют обычные системы искусственного интеллекта, такие как ChatGPT. Поэтому нам пришлось разработать новую нейронную сеть для восприятия речи в реальном времени, которая могла бы работать в самой гарнитуре.

Не могли бы вы объяснить подробнее, как работает ИИ в этих наушниках?

– Допустим, вы хотите слушать синий динамик в присутствии мешающего красного динамика. Если мы активируем шумоподавление в наушниках, то глушатся оба динамика. Но когда мы воспользуемся парой микрофонов снаружи наушников, мы сможем уловить все эти звуки, извлечь речь из синего динамика и воспроизвести её пользователю через наушники. Таким образом пользователь слышит только синий динамик и достигается желаемый результат.

Можем ли мы увидеть эти наушники в будущем на рынке?

– На самом деле, я буду удивлён, если искусственный интеллект не будет интегрирован в наушники и Airpods в ближайшие несколько лет. На протяжении почти двух десятилетий мы наблюдаем достижения в области наушников с шумоподавлением, которые направлены только на подавление всех звуков. Но это решение устраняет все звуки и не даёт пользователям никакого контроля над тем, что они хотят слышать. Я считаю, что следующее поколение "умной" техники предоставит пользователям исключительный уровень контроля над тем, что они хотят слышать в каждой конкретной ситуации.

Вот как это работает
Система состоит из двух этапов:
1. Этап регистрации
Пользователь просто нажимает кнопку на гарнитуре и смотрит на собеседника несколько секунд. В это время система захватывает образец шумного звука от цели, используя микрофоны по обе стороны головы. Затем она использует эту запись для извлечения характеристик голоса говорящего, даже если поблизости есть другие говорящие и шумы.
2. Фаза прослушивания целевой речи
Как только система узнаёт характеристики голоса целевого субъекта, она использует нейронную сеть для извлечения речи этого собеседника.