Лицо ИИ, созданное из звуковых волн.

LuckyStep / Shutterstock

Дипфейки видео означают, что нельзя доверять всему, что видишь. Дипфейки аудио могут означать, что вы больше не можете доверять своим ушам. Неужели это действительно президент объявил войну Канаде? Это действительно твой папа по телефону спрашивает пароль от электронной почты?



Добавьте еще одно экзистенциальное беспокойство к списку того, как наше собственное высокомерие может неминуемо уничтожить нас. В эпоху Рейгана единственными реальными технологическими рисками были угрозы ядерной, химической и биологической войны.

В последующие годы у нас была возможность зацикливаться на серой слизи нанотехнологий и глобальных пандемиях. Теперь у нас есть дипфейки - люди теряют контроль над своим сходством или голосом.

Что такое аудио дипфейк?

Большинство из нас видели видео дипфейк , в котором алгоритмы глубокого обучения используются для замены одного человека на другого. Лучшие из них невероятно реалистичны, и теперь очередь за аудио. Аудио дипфейк - это когда клонированный голос, который потенциально неотличим от голоса реального человека, используется для создания синтетического звука.

«Это как Photoshop для голоса», - сказал Зохаиб Ахмед, генеральный директор Напоминать ИИ о технологии клонирования голоса его компании.

Реклама

Однако плохие работы в Photoshop легко опровергнуть. Фирма по обеспечению безопасности, с которой мы говорили, сказала, что люди обычно только догадываются, является ли звуковой дипфейк настоящим или фальшивым, с точностью около 57 процентов - не лучше, чем подбрасывание монеты.

Кроме того, поскольку так много голосовых записей - это некачественные телефонные звонки (или записанные в шумных местах), звуковые дипфейки можно сделать еще более неразличимыми. Чем хуже качество звука, тем сложнее уловить эти явные признаки того, что голос не настоящий.

Но зачем вообще кому-то нужен фотошоп для голоса?

Убедительный аргумент в пользу синтетического звука

На самом деле спрос на синтетический звук огромен. По словам Ахмеда, окупаемость инвестиций наступает очень быстро.

Это особенно верно, когда речь идет об играх. В прошлом речь была единственным компонентом игры, который невозможно было создать по запросу. Даже в интерактивных титрах со сценами кинематографического качества, визуализированными в реальном времени, словесные взаимодействия с неиграющими персонажами всегда по существу статичны.

Однако теперь технологии догнали. Студии могут клонировать голос актера и использовать механизмы преобразования текста в речь, чтобы персонажи могли говорить что угодно в реальном времени.

Реклама

Существуют также более традиционные способы использования в рекламе, технической поддержке и поддержке клиентов. Здесь важен голос, который звучит подлинно человеческим и отвечает лично и контекстуально без участия человека.

Компании, занимающиеся клонированием голоса, также заинтересованы в медицинских приложениях. Конечно, замена голоса не является чем-то новым в медицине - Стивен Хокинг, как известно, использовал синтезированный роботом голос после потери своего собственного в 1985 году. Однако современное клонирование голоса обещает кое-что еще лучше.

В 2008 году компания синтетического голоса, CereProc - вернул покойному кинокритику Роджеру Эберту голос после того, как его забрал рак. CereProc опубликовала веб-страницу, на которой люди могли набирать сообщения, которые затем произносились голосом бывшего президента Джорджа Буша.

виндовс 10 автозапуск приложений отключить

Эберт увидел это и подумал: «Что ж, если они могут скопировать голос Буша, они смогут скопировать мой», - сказал Мэтью Эйлетт, главный научный сотрудник CereProc. Затем Эберт попросил компанию создать новый голос, что они и сделали, обработав большую библиотеку голосовых записей.

«Это был один из первых случаев, когда кто-либо делал это, и это был настоящий успех», - сказал Айлетт.

В последние годы ряд компаний (в том числе CereProc) работали с Ассоциация ALS на Project Revoice для передачи синтетических голосов тем, кто страдает БАС.

Логотип Project Revoice.

Ассоциация ALS

Как работает синтетическое аудио

Сейчас у клонирования голоса наступает момент, и множество компаний разрабатывают инструменты. Напоминать ИИ и Описание есть онлайн-демонстрации, которые каждый может попробовать бесплатно. Вы просто записываете фразы, которые появляются на экране, и всего за несколько минут создается модель вашего голоса.

Реклама

Вы можете поблагодарить AI, в частности, алгоритмы глубокого обучения - для возможности сопоставления записанной речи с текстом для понимания составляющих фонем, составляющих ваш голос. Затем он использует полученные лингвистические строительные блоки для приблизительного определения слов, которых вы не слышали.

Базовая технология существует уже некоторое время, но, как указал Айлетт, она требует некоторой помощи.

Он сказал, что копирование голоса немного похоже на приготовление теста. Это было довольно сложно, и приходилось разными способами настраивать его вручную, чтобы заставить его работать.

Разработчикам требовалось огромное количество записанных голосовых данных, чтобы получить приемлемые результаты. Затем, несколько лет назад, шлюзы открылись. Исследования в области компьютерного зрения оказались критически важными. Ученые разработали генеративные состязательные сети (GAN), которые впервые могли экстраполировать и делать прогнозы на основе существующих данных.

Реклама

«Вместо того, чтобы компьютер видел изображение лошади и говорил:« Это лошадь », моя модель могла теперь превратить лошадь в зебру», - сказал Айлетт. Итак, взрыв в синтезе речи сейчас произошел благодаря академической работе в области компьютерного зрения.

Одним из самых больших нововведений в клонировании голоса стало общее сокращение количества необработанных данных, необходимых для создания голоса. Раньше системам требовались десятки или даже сотни часов звука. Однако теперь компетентные голоса можно сгенерировать из всего лишь нескольких минут контента.

СВЯЗАННЫЙ: Проблема с ИИ: машины учатся, но не могут их понять

Экзистенциальный страх ничего не доверять

Эта технология, наряду с ядерной энергетикой, нанотехнологиями, 3D-печатью и CRISPR, одновременно захватывающая и устрашающая. В конце концов, в новостях уже были случаи, когда людей обманывали голосовыми клонами. В 2019 году компания в Великобритании заявила, что обманутый звуковой дипфейком телефонный звонок с целью перевода денег преступникам.

Не нужно далеко ходить, чтобы найти удивительно убедительные звуковые подделки. YouTube канал Вокальный синтез показывает, как известные люди говорят то, чего никогда не говорили, например Джордж Буш читает 'In Da Club' от 50 Cent . Это на месте.

В другом месте на YouTube можно услышать стаю экс-президентов, в том числе Обама, Клинтон и Рейган, читающие рэп NWA . Музыка и фоновые звуки помогают замаскировать некоторые очевидные сбои робота, но даже в этом несовершенном состоянии потенциал очевиден.

Мы экспериментировали с инструментами на Напоминать ИИ и Описание и создал голосовой клон. Descript использует движок клонирования голоса, который изначально назывался Lyrebird и был особенно впечатляющим. Мы были шокированы качеством. Слышать, как собственный голос говорит то, чего, как вы знаете, никогда не говорил, - это нервирует.

В речи определенно присутствует роботизированность, но при обычном прослушивании у большинства людей не будет причин думать, что это подделка.

что означает tldr

Редактор сценария клонирования голоса Descript.

Реклама

У нас были еще большие надежды на Resemble AI. Это дает вам инструменты для создания разговора с несколькими голосами и изменения выразительности, эмоций и темпа диалога. Однако мы не думали, что модель голоса отражает основные качества голоса, который мы использовали. На самом деле, вряд ли кого-то обмануть.

Представитель Resemble AI сказал нам, что большинство людей поражены результатами, если они сделают это правильно. Мы дважды построили голосовую модель с аналогичными результатами. Так что, очевидно, не всегда легко создать голосовой клон, который можно было бы использовать для совершения цифрового ограбления.

Несмотря на это, основатель Lyrebird (который сейчас является частью Descript) Кундан Кумар считает, что мы уже преодолели этот порог.

По словам Кумара, в небольшом проценте случаев он уже существует. Если я использую синтетический звук, чтобы изменить несколько слов в речи, он уже настолько хорош, что вам будет трудно понять, что изменилось.

Редактор сценария клонирования голоса Resemble AI.

Мы также можем предположить, что эта технология со временем станет только лучше. Системам потребуется меньше звука для создания модели, а более быстрые процессоры смогут строить модель в реальном времени. Более умный ИИ научится добавлять более убедительную человеческую ритмику и акцент на речи, не имея примера для работы.

Это означает, что мы, возможно, приближаемся к повсеместной доступности клонирования голоса без усилий.

Этика ящика Пандоры

Большинство компаний, работающих в этой сфере, похоже, готовы безопасно и ответственно обращаться с технологиями. Наподобие ИИ, например, имеет целый раздел по этике на своем веб-сайте , и следующий отрывок обнадеживает:

Реклама

Мы работаем с компаниями через строгий процесс, чтобы гарантировать, что голос, который они клонируют, может быть использован ими, и что у нас есть надлежащие согласования с актерами озвучивания.

В

Точно так же Кумар сказал, что Lyrebird с самого начала был обеспокоен неправильным использованием. Вот почему теперь, как часть Descript, он позволяет людям клонировать только собственный голос. Фактически, и Resemble, и Descript требуют, чтобы люди записывали свои образцы вживую, чтобы предотвратить несогласованное клонирование голоса.

Отрадно, что основные коммерческие игроки установили некоторые этические принципы. Однако важно помнить, что эти компании не являются привратниками этой технологии. Уже существует ряд инструментов с открытым исходным кодом, для которых нет никаких правил. По словам Генри Айдера, руководителя службы разведки угроз в Deeptrace , вам также не нужны глубокие знания в области программирования, чтобы использовать его не по назначению.

По словам Аждера, значительный прогресс в этой области достигнут благодаря совместной работе в таких местах, как GitHub, с использованием реализаций с открытым исходным кодом ранее опубликованных научных статей. Его может использовать любой, у кого средний уровень программирования.

Профессионалы в области безопасности видели все это раньше

Преступники пытались украсть деньги по телефону задолго до того, как стало возможным клонирование голоса, и специалисты по безопасности всегда были на связи, чтобы обнаружить и предотвратить это. Охранное предприятие Пиндроп пытается остановить банковское мошенничество, проверяя, является ли звонящий тем, кем он или она себя называет, по аудиозаписи. Только в 2019 году Пиндроп утверждает, что проанализировал 1,2 миллиарда голосовых взаимодействий и предотвратил попытки мошенничества на сумму около 470 миллионов долларов.

Реклама

До клонирования голоса мошенники испробовали ряд других приемов. Самым простым было просто позвонить из другого места и сообщить личную информацию о знаке.

«Наша акустическая сигнатура позволяет нам определить, что звонок действительно поступает с телефона Skype в Нигерии, по звуковым характеристикам», - сказал генеральный директор Pindrop Виджай Баласубраманиян. Затем мы можем сравнить, зная, что клиент пользуется телефоном AT&T в Атланте.

Некоторые преступники также сделали карьеру, используя фоновые звуки, чтобы сбить с толку банковских представителей.

- Есть мошенник, которого мы звали Цыпленок, у которого на заднем плане всегда были петухи, - сказал Баласубраманиян. И есть одна женщина, которая использовала плачущего ребенка на заднем плане, чтобы убедить агентов колл-центра, что «эй, я сейчас переживаю трудные времена», чтобы вызвать сочувствие.

Кроме того, есть преступники-мужчины, которые захватывают банковские счета женщин.

Баласубраманиян объяснил, что они используют технологии, чтобы увеличить частоту своего голоса, чтобы он звучал более женственно. Они могут быть успешными, но иногда программное обеспечение дает сбой, и они звучат как Элвин и бурундуки.

Реклама

Конечно, клонирование голоса - это всего лишь последнее событие в этой постоянно обостряющейся войне. Охранные фирмы уже поймали мошенников, использующих синтетический звук, по крайней мере, в одной подводной охоте.

По словам Баласубраманияна, при правильной цели выплаты могут быть огромными. Итак, имеет смысл посвятить время созданию синтезированного голоса нужного человека.

Кто-нибудь может сказать, фальшивый ли голос?

Силуэт лица со звуковыми волнами позади него.

Сергей Нивенс / Shutterstock

Когда дело доходит до распознавания подделки голоса, есть как хорошие, так и плохие новости. Плохо то, что голосовые клоны становятся лучше с каждым днем. Системы глубокого обучения становятся умнее и воспроизводят более аутентичные голоса, для создания которых требуется меньше звука.

работает режим пониженного энергопотребления

Как видно из этого ролика Президент Обама говорит MC Ren занять позицию , мы также уже дошли до того, что высококачественная, тщательно продуманная модель голоса может звучать довольно убедительно для человеческого уха.

Чем длиннее аудиоклип, тем больше вероятность, что вы заметите что-то неладное. Однако для более коротких роликов вы можете не заметить, что они синтетические, особенно если у вас нет причин сомневаться в их законности.

Чем четче качество звука, тем легче заметить признаки дипфейка звука. Если кто-то говорит прямо в микрофон студийного качества, вы сможете внимательно его слушать. А вот некачественную запись телефонного разговора или разговор, записанный на портативное устройство в шумной парковке, будет гораздо сложнее оценить.

Реклама

Хорошая новость заключается в том, что даже если людям трудно отличить реальное от подделки, у компьютеров нет таких ограничений. К счастью, инструменты голосовой проверки уже существуют. У Pindrop есть одна, которая противопоставляет системы глубокого обучения друг другу. Он использует и то, и другое, чтобы определить, является ли аудиосэмпл тем человеком, которым он должен быть. Однако он также проверяет, может ли человек вообще издавать все звуки в образце.

В зависимости от качества звука каждая секунда речи содержит от 8 000 до 50 000 выборок данных, которые могут быть проанализированы.

«То, что мы обычно ищем, - это ограничения речи из-за эволюции человека», - пояснил Баласубраманиян.

Например, два вокальных звука имеют минимально возможное расстояние друг от друга. Это потому, что физически невозможно произнести их быстрее из-за скорости, с которой мышцы во рту и голосовые связки могут переконфигурировать себя.

Когда мы смотрим на синтезированный звук, сказал Баласубраманиян, мы иногда видим вещи и говорим: «Это никогда не могло быть создано человеком, потому что единственный человек, который мог бы это создать, должен иметь шею семи футов длиной.

Есть также класс звуков, называемых фрикативными. Они образуются, когда воздух проходит через узкое сужение в вашем горле, когда вы произносите такие буквы, как f, s, v и z. Системам глубокого обучения особенно сложно освоить фрикативные методы, потому что программному обеспечению трудно отличить их от шума.

Реклама

Так что, по крайней мере на данный момент, программы для клонирования голоса сбиты с толку тем фактом, что люди представляют собой мешки с мясом, через которые воздух проходит через отверстия в их теле, чтобы говорить.

«Я все время шучу, что дипфейки очень плаксивые», - сказал Баласубраманиян. Он объяснил, что алгоритмам очень сложно отличить концы слов от фонового шума в записи. Это приводит к тому, что многие модели голоса затихают в большей степени, чем люди.

По словам Баласубраманияна, когда алгоритм видит, что это происходит часто, статистически он становится более уверенным в том, что сгенерирован именно звук, а не человеческий.

Компания Resemble AI также решает проблему обнаружения с помощью Resemblyzer, инструмента глубокого обучения с открытым исходным кодом. доступно на GitHub . Он может обнаруживать фальшивые голоса и выполнять проверку говорящего.

Требуется бдительность

Всегда трудно угадать, что нас ждет в будущем, но эта технология почти наверняка станет только лучше. Кроме того, любой потенциально может стать жертвой, а не только высокопоставленные лица, такие как выборные должностные лица или руководители банковского сектора.

«Я думаю, что мы находимся на грани первого взлома звука, когда у людей украдут голоса», - предсказал Баласубраманиян.

Реклама

Однако на данный момент реальный риск звуковых дипфейков невелик. Уже есть инструменты, которые неплохо справляются с обнаружением синтетического видео.

Кроме того, большинство людей не подвергаются риску нападения. По словам Адждера, основные коммерческие игроки работают над индивидуальными решениями для конкретных клиентов, и у большинства из них есть довольно хорошие этические принципы в отношении того, с кем они будут, а с кем не будут работать.

Однако настоящая угроза впереди, как пояснил Адждер:

Pandora’s Box - это люди, объединяющие реализации технологии с открытым исходным кодом во все более удобные и доступные приложения или сервисы, которые не имеют такого этического уровня контроля, как в настоящее время коммерческие решения.

Это, вероятно, неизбежно, но охранные компании уже внедряют фальшивое обнаружение звука в свои наборы инструментов. Тем не менее, чтобы оставаться в безопасности, нужно проявлять бдительность.

- Мы сделали это и в других областях безопасности, - сказал Адждер. Например, многие организации тратят много времени, пытаясь понять, какова следующая уязвимость нулевого дня. Синтетический звук - это просто следующий рубеж.

СВЯЗАННЫЙ: Что такое дипфейк и стоит ли мне беспокоиться?

ПРОЧИТАЙТЕ СЛЕДУЮЩИЙ