С помощью технологии "дипфейк" можно подделать и внешность человека, и его голос

скриншот Youtube-канала Diep Nep

Один из самых удачных на сегодняшний день доступных дипфейков, как видео, так и голосового, – это дипфейк актёра Моргана Фримена. Его создали датские учёные. Посмотреть видео можно на Youtube-канале Diep Nep

За последние шесть лет дипфейк-видео стали распространённым явлением в Интернете. Однако на горизонте замаячил ещё один вид "подделок" – теперь можно воссоздать голос.

Начнём с хорошего. Этой технологии пророчат большое будущее в медицине. Люди, которые потеряли способность говорить, теперь смогут снова её приобрести – пусть и в цифровом формате. Как именно это будет работать, пока неясно. Но уже сейчас понятно, что, к примеру, в случае Стивена Хокинга, который всю жизнь провёл в инвалидном кресле из-за БАС, услышать его речь было бы приятнее, чем компьютерную.

Также эта технология может пригодиться в кинематографе. Бывает такое, что актёр забыл что-то сказать на съёмочной площадке и не может быстро записать в студии конкретные строчки. В этом случае это можно сделать и без него.

– Идеальный голосовой дипфейк полностью неотличим от оригинального речевого образца, – объясняет Metro Логан Блу, кандидат наук из Флоридского института исследований кибербезопасности.

Однако у этой технологии, как и у любого новшества, есть свои минусы. Она может быстро полюбиться мошенникам, которые смогут звонить в банки и представляться другим человеком, вымогать деньги у родственников и т. д. Интересно, что пранкеры, которые разыгрывают политиков – американец Саша Барон Коэн, россияне Вован и Лексус, – отрицают, что пользуются технологиями. Им, по их словам, верят и так.

Процесс

Компьютеру, на котором будет создавать дипфейк, нужно прослушать оригинальный образец речи.
Чем длиннее будет запись, тем качественнее и подлиннее будет подделка. В среднем на это нужно 10–20 секунд. И обязательно должна быть речь! По крикам, восклицаниям, охам и вздохам компьютер не сможет воссоздать речь. Ну разве что только тембр голоса.
Когда набор звуков речи сгенерирован, его можно использовать двумя путями. Первый самый простой – этим голосом можно озвучить набранный на компьютере текст. Второй сложнее – один человек должен говорить в микрофон, а программа будет обрамлять его речь другим голосом. Преимущество этого формата в том, что интонации получаются более реалистичными.

Два вопроса о дипфейках

Отвечает Логан Блу, кандидат наук из Флоридского института исследований кибербезопасности

Вы изучали, как отличаются голоса реальных людей и компьютеров. В чём же отличия?

– Если честно, во всём. Просто это не сразу слышно. Голоса людей гораздо глубже, какие-то звуки короче, какие-то длиннее. А компьютер – это всё-таки машина, которая работает по математическим формулам.

Можем ли мы ожидать расцвета голосового мошенничества в ближайшее время?

– Сложно сказать точно, но мы работаем над программой, которая поможет людям понимать, разговаривает с ними реальный человек или компьютер. Так что если эта эпоха мошенничества и начнётся, мы будем во всеоружии.