paint-brush
Encontrar rostros generados por IA en la naturaleza: modelopor@botbeat
172 lecturas

Encontrar rostros generados por IA en la naturaleza: modelo

Demasiado Largo; Para Leer

La IA puede crear caras falsas realistas para estafas en línea. Este trabajo propone un método para detectar rostros generados por IA en imágenes.
featured image - Encontrar rostros generados por IA en la naturaleza: modelo
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Autores:

(1) Gonzalo J. Aniano Porcile, LinkedIn;

(2) Jack Gindi, LinkedIn;

(3) Shivansh Mundra, LinkedIn;

(4) James R. Verbus, LinkedIn;

(5) Hany Farid, LinkedIn y Universidad de California, Berkeley.

Tabla de enlaces

3. Modelo

Entrenamos un modelo para distinguir rostros reales de rostros generados por IA. El modelo subyacente es la red neuronal convolucional EfficientNet-B1 [7] [30]. Descubrimos que esta arquitectura proporciona un mejor rendimiento en comparación con otras arquitecturas de última generación (Swin-T [22], Resnet50 [14], XceptionNet [7]). La red EfficientNet-B1 tiene 7,8 millones de parámetros internos que se entrenaron previamente en el conjunto de datos de imágenes ImageNet1K [30].


Nuestro proceso consta de tres etapas: (1) una etapa de preprocesamiento de imágenes; (2) una etapa de incrustación de imágenes; y (3) una etapa de puntuación. El modelo toma como entrada una imagen en color y genera una puntuación numérica en el rango [0, 1]. Las puntuaciones cercanas a 0 indican que la imagen probablemente sea real y las puntuaciones cercanas a 1 indican que la imagen probablemente sea generada por IA.



Tabla 2. Entrenamiento de referencia y evaluación verdaderamente positiva (clasificación correcta de una imagen generada por IA, promediada en todos los motores de síntesis (TPR)). En cada condición, la tasa de falsos positivos es del 0,5% (clasificando incorrectamente una cara real (FPR)). También se informa la puntuación F1 definida como 2TP/(2TP + FP + FN). TP, FP y FN representan el número de verdaderos positivos, falsos positivos y falsos negativos, respectivamente. Dentro del motor/fuera del motor indica que las imágenes se crearon con los mismos o diferentes motores de síntesis que los utilizados en el entrenamiento.



El paso de preprocesamiento de la imagen cambia el tamaño de la imagen de entrada a una resolución de 512 × 512 píxeles. Esta imagen en color redimensionada luego se pasa a una capa de aprendizaje por transferencia EfficientNet-B1. En la etapa de puntuación, la salida de la capa de aprendizaje por transferencia se envía a dos capas completamente conectadas, cada una de tamaño 2048, con una función de activación ReLU, una capa de abandono con una probabilidad de abandono de 0,8 y una capa de puntuación final con una activación sigmoidea. Sólo se ajustan las capas de puntuación, con 6,8 millones de parámetros entrenables. Los pesos entrenables se optimizan utilizando el algoritmo AdaGrad con un minibatch de tamaño 32, una tasa de aprendizaje de 0,0001 y se entrenan para hasta 10.000 pasos. Se utilizó un clúster con 60 GPU NVIDIA A100 para el entrenamiento del modelo.


Este documento está disponible en arxiv bajo licencia CC 4.0.


[7] Estamos describiendo una versión anterior del modelo EfficientNet que previamente hemos puesto en funcionamiento en LinkedIn y que desde entonces ha sido reemplazado por un nuevo modelo. Reconocemos que este modelo no es el más reciente, pero recién ahora podemos informar estos resultados porque el modelo ya no está en uso.