Дипфейки — это не только видео. Подделывают фотографии, тексты и даже аудио
Помните, как в романе Стивена Кинга «Оно», — чтобы победить страх, нужно посмотреть ему в глаза. Поэтому прежде всего нам нужно определить, что такое дипфейк.
Это одна из технологий искусственного интеллекта, использующая машинное обучение для глубокого изменения контента. Самое распространённое применение сейчас — замена лиц на фото и видео. Вы наверняка видели, как Джим Керри сыграл вместо Джека Николсона в «Сиянии», Барак Обама на камеру назвал Дональда Трампа «засранцем», а Илон Маск исполнил песню «Земля в иллюминаторе». Если что, всё это фейки.
Но замена лиц — лишь часть того, что может нейросеть. Дипфейки позволяют манипулировать контентом как угодно: заменять звуки, движения, ландшафты, добавлять и убирать людей с фотографий и видеозаписей.
Казалось бы, монтаж был всегда. Тем же Фотошопом уже десятки лет поправляют разные фотографии. Но до появления машинного обучения проблема не была столь массовой и одновременно сложной: дипфейки намного труднее отличить от оригинала, чем подделку, сделанную в графическом редакторе.
Для создания фейков с помощью ИИ применяется хорошо известный метод машинного обучения — GAN (генеративно-состязательная сеть). Да, это его использует NVIDIA для превращения мазни в произведения искусства, а куча приложений и онлайн-сервисов — для стилизации фото под картины великих художников.
В GAN работают две противоборствующие нейронные сети: генератор и дискриминатор. Первая сеть пытается создать реалистичное изображение. Вторая — проверяет результат и определяет, подделка это или нет. Если дискриминатор обнаруживает следы монтажа, то запоминает признаки, по которым он вычислил фейк. Генератор при этом не останавливается, а продолжает создавать новые детали. Главная цель — обмануть дискриминатор.
Противоборство двух нейронных сетей может продолжаться бесконечно. В какой-то момент человеческого восприятия уже недостаточно для того, чтобы определить подделку. Более того, с этой задачей на 100 % не справляются даже другие нейронные сети. Но об этом чуть позже. Пока же — немного стенаний о том, почему дипфейки представляют угрозу для людей.
Эксперты считают дипфейки одной из главных угроз нашего времени, политики с ними согласны
Уже сейчас дипфейки затрагивают различные области жизни. Вот несколько неприятных примеров использования нейросетей против репутации известных людей.
В 2017 году в интернете появилось огромное количество фейковых роликов категории «18+». В них лица знаменитостей были наложены на тела реальных актрис фильмов для взрослых. В 2019 году нидерландская компания Deeptrace опубликовала отчёт, из которого следовало, что 96 % дипфейк-видео относятся к категории «18+». Такие ролики посмотрели более 130 миллионов раз.
Дипфейки активно применяются и в нечестной политической конкуренции. В 2019 году появилось видео со спикером палаты представителей конгресса США Нэнси Пелоси (Nancy Pelosi). В нём она плохо выговаривала слова, так что у зрителей сложилось впечатление, что политик находится в состоянии алкогольного опьянения. В США был громкий скандал. Лишь спустя некоторое время специалистам удалось доказать, что речь Пелоси была переделана нейросетью.
Власти в разных странах прекрасно осведомлены обо всех опасностях дипфейков. Например, в Китае с 1 января 2020 года публикация любой заведомо ложно информации, в том числе созданной с помощью нейросетей, считается уголовным преступлением.
Власти США считают дипфейки угрозой национальной безопасности. В октябре 2019 года в Калифорнии были приняты первые в стране законы, касающиеся дипфейков. Один их них признаёт незаконным размещение любых видео в политических целях — например, замену лица или речи для дискредитации политика. Второй закон позволяет жителям штата подать в суд на любого, кто использует дипфейк в целях создания видео для взрослых. В Конгрессе США в конце прошлого года находились на рассмотрении ещё четыре законопроекта, касающиеся дипфейков.
Обнаруживать дипфейки всё сложнее — для этой цели приходится тренировать другие нейросети
Вопросами распознавания дипфейков занимаются IT-гиганты, но пока эффективных инструментов нет — процент ошибок всё ещё очень высокий. Эксперты считают, что в ближайшее время технология разовьётся до уровня, когда отличить фейк от оригинала станет невозможно. Единственный выход — развитие других нейросетей, которые будут бороться с ИИ, создающим дипфейки.
В авангарде борьбы с фейками — Google, Microsoft и Facebook. Например, Facebook и Microsoft проводили конкурс на разработку технологии распознавания подделок с призовым фондом 10 миллионов долларов.
Twitter, Reddit и PornHub тоже столкнулись с проблемой фейкового контента и теперь пытаются найти решение. Пока получается не очень хорошо, так что единственная надежда — на здравый смысл и наблюдательность пользователей. Несмотря на то, что системы совершенствуются, в результатах работы нейросетей все ещё остаются артефакты, которые помогают людям «на глаз» определять фейковость видео. Это можно назвать проблесками в матрице — на их обнаружение и натаскиваются системы, которые должны научиться находить фейковые записи.
С фотографиями, текстами и аудиозаписями дело обстоит сложнее — здесь объективно меньше факторов, за которые можно зацепиться. Впрочем, некоторые достижения всё-таки есть. Например, американские исследователи разработали алгоритм Grover, который, по их утверждению, смог опознать 92 % дипфейков в текстовом наборе.
Другая команда учёных придумала необычный подход. Разработчики создали среду, которая предсказывает, какие слова с наибольшей вероятностью появятся в предложении. По сути, их алгоритм пишет собственный фейковый текст и использует его в качестве ориентира для нахождения искусственно созданного контента. Однако процент правильного срабатывания системы неизвестен.
Инструментов для обнаружения аудиоподделок ещё меньше, чем для определения фейковых видео. В 2019 году команда Resemble выпустила опенсорсный инструмент Resemblyzer. Он тоже использует искусственный интеллект и машинное обучение, угадывая, являются ли голосовые образцы реальными или сгенерированными. Resemblyzer обрабатывает аудиофайл и создаёт из голоса математическое представление, в котором суммируются его характеристики. Это позволяет разработчикам сравнить реальный и сгенерированный голоса, чтобы выяснить, кто говорит на записи — человек или фейк.
При этом для создания поддельной аудиозаписи нужен небольшой набор данных. Коммерческие системы способны собрать похожий на оригинал голос на основе нескольких минут исходного материала. Сложные модели типа Deep Voice от Baidu копируют голос с образца продолжительностью менее 4 секунд.
Казалось бы, что проще — запретить технологию, из-за которой появляются дипфейки. Проблема в том, что модель машинного обучения, позволяющая подделывать контент, одновременно приносит огромную пользу человечеству: помогает усовершенствовать медицинскую диагностику, улучшает обучение беспилотных систем. И параллельно даёт возможности для обмана, который трудно разоблачить.
Дипфейк может создать любой человек — вопрос лишь в качестве контента
Самый простой способ создать дипфейк — использовать какое-нибудь простое приложение для Android или iOS. Выбор богатый, а вот возможности — ограниченные. Но ради развлечения можно попробовать.
Например, приложение Doublicat. Вы делаете селфи и помещаете фото на заготовку. Приложение само подбирает выражение лица.
Похожий результат даёт FaceApp — приложение от российских разработчиков из Wireless Lab, благодаря которому ленты всех соцсетей были забиты состаренными фотографиями людей. В нём можно не только постареть, но и добавить бороду или сменить причёску.
В браузере можно использовать Deepfakes web β — онлайн-сервис для создания видеофейков. Стоимость — 2 доллара в час. Результат наложения получается грубым, но иногда смешным.
Если хочется получить более профессиональный результат, то ставьте программу DeepFaceLab. По словам разработчиков, это приложение использовано в более чем 95 % случаев создания дипфейков. Проверить это утверждение нельзя, но факт остаётся фактом: большинство инструкций о том, как создать фейковое видео, рассказывают о DeepFaceLab. Исходники программы доступны на GitHub для свободного скачивания. Внутри есть примеры исходных и выходных данных, обучающие модели. Но без дополнительного обучения всё равно не обойтись — благо, инструкцию по созданию дипфейка в DeepFaceLab найти несложно.
На Linux и macOS вместо DeepFaceLab можно использовать программу FaceSwap. Это тоже инструмент с открытым исходным кодом, для освоения которого придётся пользоваться инструкциями и подсказками от сообщества.
Для работы обеих программ требуется мощная видеокарта и много свободного времени — замена лица в видео происходит невероятно медленно. Для достижения приемлемого результата также требуется практика — нейросеть придётся долго обучать и тонко настраивать.
Источник: