184 чтения

Поиск лиц, созданных искусственным интеллектом, в дикой природе: модель

Слишком долго; Читать

ИИ может создавать реалистичные фальшивые лица для онлайн-мошенничества. В этой работе предлагается метод обнаружения лиц на изображениях, созданных ИИ.
featured image - Поиск лиц, созданных искусственным интеллектом, в дикой природе: модель
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Авторы:

(1) Гонсало Дж. Аниано Порсиле, LinkedIn;

(2) Джек Гинди, LinkedIn;

(3) Шиванш Мундра, LinkedIn;

(4) Джеймс Р. Вербус, LinkedIn;

(5) Хани Фарид, LinkedIn и Калифорнийский университет в Беркли.

Таблица ссылок

3. Модель

Мы обучаем модель отличать настоящие лица от сгенерированных ИИ. Базовой моделью является сверточная нейронная сеть EfficientNet-B1[7] [30]. Мы обнаружили, что эта архитектура обеспечивает лучшую производительность по сравнению с другими современными архитектурами (Swin-T [22], Resnet50 [14], XceptionNet [7]). Сеть EfficientNet-B1 имеет 7,8 миллионов внутренних параметров, которые были предварительно обучены на наборе данных изображений ImageNet1K [30].


Наш конвейер состоит из трех этапов: (1) этап предварительной обработки изображения; (2) этап внедрения изображения; и (3) этап подсчета очков. Модель принимает на вход цветное изображение и генерирует числовой балл в диапазоне [0, 1]. Оценка около 0 указывает на то, что изображение, скорее всего, является реальным, а оценка около 1 указывает на то, что изображение, скорее всего, создано искусственным интеллектом.



Таблица 2. Базовое обучение и оценка истинно положительные (правильная классификация изображения, сгенерированного ИИ, усредненного по всем механизмам синтеза (TPR)). В каждом случае уровень ложноположительных результатов составляет 0,5% (неправильная классификация настоящего лица (FPR)). Также сообщается показатель F1, определяемый как 2TP/(2TP + FP + FN). TP, FP и FN обозначают количество истинно положительных, ложноположительных и ложноотрицательных результатов соответственно. В движке/вне движка означает, что изображения были созданы с помощью тех же или других механизмов синтеза, которые использовались при обучении.



На этапе предварительной обработки изображения размер входного изображения изменяется до разрешения 512×512 пикселей. Это цветное изображение с измененным размером затем передается на уровень передачи обучения EfficientNet-B1. На этапе оценки выходные данные слоя переноса обучения подаются на два полносвязных слоя, каждый размером 2048, с функцией активации ReLU, слой отсева с вероятностью отсева 0,8 и финальный оценочный слой с сигмоидальной активацией. Настраиваются только слои оценки с 6,8 миллионами обучаемых параметров. Обучаемые веса оптимизируются с использованием алгоритма AdaGrad с мини-пакетом размером 32, скоростью обучения 0,0001 и обучаются до 10 000 шагов. Для обучения модели использовался кластер с 60 графическими процессорами NVIDIA A100.


Этот документ доступен на arxiv под лицензией CC 4.0.


[7] Мы описываем старую версию модели EfficientNet, которую мы ранее применяли в LinkedIn, которая с тех пор была заменена новой моделью. Мы понимаем, что эта модель не самая последняя, но мы можем сообщить об этих результатах только сейчас, поскольку модель больше не используется.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks