paint-brush
Поиск лиц, созданных искусственным интеллектом, в дикой природе: наборы данныхк@botbeat
188 чтения

Поиск лиц, созданных искусственным интеллектом, в дикой природе: наборы данных

Слишком долго; Читать

ИИ может создавать реалистичные фальшивые лица для онлайн-мошенников. В этой работе предлагается метод обнаружения лиц на изображениях, созданных искусственным интеллектом.
featured image - Поиск лиц, созданных искусственным интеллектом, в дикой природе: наборы данных
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Авторы:

(1) Гонсало Дж. Аниано Порсиле, LinkedIn;

(2) Джек Гинди, LinkedIn;

(3) Шиванш Мундра, LinkedIn;

(4) Джеймс Р. Вербус, LinkedIn;

(5) Хани Фарид, LinkedIn и Калифорнийский университет в Беркли.

Таблица ссылок

2. Наборы данных

В нашем обучении и оценке используются 18 наборов данных, состоящих из 120 000 реальных фотографий профилей LinkedIn и 105 900 лиц, созданных с помощью искусственного интеллекта, охватывающих пять различных механизмов GAN и пять различных механизмов диффузионного синтеза. Изображения, сгенерированные ИИ, состоят из двух основных категорий: с лицом и без лица. Размер изображений в реальном и синтезированном цвете (RGB) изменяется от исходного разрешения до 512 × 512 пикселей. В Таблице 1 показан учет этих изображений, а на Рисунке 2 показаны репрезентативные примеры из каждой из категорий, созданных ИИ, как описано ниже.

2.1. Реальные лица

120 000 реальных фотографий были взяты у пользователей LinkedIn с общедоступными фотографиями профилей, загруженными в период с 1 января 2019 года по 1 декабря 2022 года. Эти учетные записи демонстрировали активность на платформе в течение как минимум 30 дней (например, входили в систему, публиковали сообщения, отправляли сообщения, выполняли поиск). ) без срабатывания детекторов фейковых аккаунтов. Учитывая возраст и активность аккаунтов, мы можем быть уверены, что эти фотографии настоящие. Эти изображения были самого разного разрешения и качества. Хотя большинство этих изображений представляют собой стандартные фотографии профиля, на которых изображен один человек, на некоторых из них нет лица. Напротив, все изображения, созданные ИИ (описанные далее), состоят из лица. Мы еще вернемся к этой разнице между реальными и поддельными изображениями в разделе 4.

2.2. ГАН Лица


Рисунок 2. Репрезентативные примеры изображений, созданных ИИ, которые использовались в нашем обучении и оценке (см. также Таблицу 1). Некоторые механизмы синтеза использовались только для создания лиц, а другие использовались для синтеза как лиц, так и нелиц. В целях уважения конфиденциальности пользователей мы не показываем примеры реальных фотографий.



2 и 3, цветные изображения были синтезированы с разрешением 1024×1024 пикселей и с ψ = 0,5. [1] Для EG3D (3D-генеративно-состязательные сети с учетом геометрии), так называемой 3D-версии StyleGAN, мы синтезировали 10 000 изображений с разрешением 512×512, с ψ = 0,5 и со случайными положениями головы.


Всего с сайтаgenerated.photos[2] было загружено 10 000 изображений с разрешением 1024×1024 пикселей. Эти изображения, синтезированные с помощью GAN, обычно создают более профессионально выглядящие снимки головы, поскольку сеть обучается на наборе данных высококачественных изображений, записанных в фотостудии.

2.3. ГАН

Всего было загружено 5000 изображений StyleGAN 1[3] для каждой из трех категорий, не связанных с лицами: спальни, автомобили и кошки (репозитории других версий StyleGAN не предоставляют изображений для других категорий, кроме лиц). Размер этих изображений варьировался от 512 × 384 (автомобили) до 256 × 256 (спальни и кошки).

2.4. Диффузионные грани

Мы сгенерировали 9000 изображений из каждой версии Stable Diffusion [26] (1, 2) [4]. В отличие от лиц GAN, описанных выше, диффузионный синтез текста в изображение обеспечивает больший контроль над внешним видом лиц. Чтобы обеспечить разнообразие, 300 лиц для каждой из 30 демографических групп с подсказками «фото {молодого, среднего возраста, старшего} {черного, восточноазиатского, латиноамериканского, южноазиатского, белого} {женщины, мужчины}». Эти изображения были синтезированы с разрешением 512 × 512. Этот набор данных был создан для устранения очевидных ошибок синтеза, на которых, например, не было видно лицо.


Еще 900 изображений были синтезированы из самой последней версии Stable Diffusion (xl). Используя те же демографические категории, что и раньше, для каждой из 30 категорий было создано по 30 изображений, каждое с разрешением 768×768.


Мы сгенерировали 9000 изображений из DALL-E 2 [5], состоящих из 300 изображений для каждой из 30 демографических групп. Эти изображения были синтезированы с разрешением 512×512 пикселей.


Всего было загружено 1000 изображений Midjourney[6] с разрешением 512 × 512. Эти изображения были вручную обработаны так, чтобы на них было только одно лицо.

2.5. Диффузия

Мы синтезировали 1000 изображений без лиц из каждой из двух версий Stable Diffusion (1, 2). Эти изображения были созданы с использованием случайных подписей (сгенерированных ChatGPT) и были проверены вручную на предмет удаления любых изображений, содержащих человека или лицо. Эти изображения были синтезированы с разрешением 600 × 600 пикселей. Аналогичный набор из 1000 изображений DALL-E 2 и 1000 изображений Midjourney был синтезирован с разрешением 512×512.

2.6. Данные обучения и оценки

Перечисленные выше наборы изображений делятся на обучающие и оценочные следующим образом. Наша модель (описанная в разделе 3) обучается на случайном подмножестве из 30 000 реальных лиц и 30 000 лиц, сгенерированных ИИ. Лица, сгенерированные искусственным интеллектом, состоят из случайного подмножества из 5250 изображений StyleGAN 1, 5250 StyleGAN 2, 4500 StyleGAN 3, 3750 изображений Stable Diffusion 1, 3750 Stable Diffusion 2 и 7500 изображений DALL-E 2.


Мы оцениваем нашу модель по следующим критериям:


• Набор из 5000 изображений лиц из тех же механизмов синтеза, которые использовались при обучении (StyleGAN 1, StyleGAN 2, StyleGAN 3, Stable Diffusion 1, Stable Diffusion 2 и DALL-E 2).


• Набор из 5000 изображений лиц из механизмов синтеза, не используемых в обучении (Generated.photos, EG3D, Stable Diffusion xl и Midjourney).


• Набор из 3750 изображений без лиц из каждого из пяти механизмов синтеза (StyleGAN 1, DALL-E 2, Stable Diffusion 1, Stable Diffusion 2 и Midjourney).


• Набор из 13 750 реальных лиц.


Этот документ доступен на arxiv под лицензией CC 4.0.


[1] Параметр StyleGAN ψ (обычно в диапазоне [0, 1]) управляет усечением начальных значений в представлении скрытого пространства, используемом для создания изображения. Меньшие значения ψ обеспечивают лучшее качество изображения, но уменьшают разнообразие лиц. Среднее значение ψ = 0,5 дает лица относительно без артефактов, при этом допуская различия по полу, возрасту и этнической принадлежности синтезированного лица.


[2] https://generated.photos/faces


[3] https://github.com/NVlabs/stylegan)


[4] https://github. com / Стабильность - AI / StableDiffusion


[5] https://openai.com/dall-e-2


[6] https://www.midjourney.com