Autores:
(1) Gonzalo J. Aniano Porcile, LinkedIn;
(2) Jack Gindi, LinkedIn;
(3) Shivansh Mundra, LinkedIn;
(4) James R. Verbus, LinkedIn;
(5) Hany Farid, LinkedIn y Universidad de California, Berkeley.
Entrenamos un modelo para distinguir rostros reales de rostros generados por IA. El modelo subyacente es la red neuronal convolucional EfficientNet-B1 [7] [30]. Descubrimos que esta arquitectura proporciona un mejor rendimiento en comparación con otras arquitecturas de última generación (Swin-T [22], Resnet50 [14], XceptionNet [7]). La red EfficientNet-B1 tiene 7,8 millones de parámetros internos que se entrenaron previamente en el conjunto de datos de imágenes ImageNet1K [30].
Nuestro proceso consta de tres etapas: (1) una etapa de preprocesamiento de imágenes; (2) una etapa de incrustación de imágenes; y (3) una etapa de puntuación. El modelo toma como entrada una imagen en color y genera una puntuación numérica en el rango [0, 1]. Las puntuaciones cercanas a 0 indican que la imagen probablemente sea real y las puntuaciones cercanas a 1 indican que la imagen probablemente sea generada por IA.
El paso de preprocesamiento de la imagen cambia el tamaño de la imagen de entrada a una resolución de 512 × 512 píxeles. Esta imagen en color redimensionada luego se pasa a una capa de aprendizaje por transferencia EfficientNet-B1. En la etapa de puntuación, la salida de la capa de aprendizaje por transferencia se envía a dos capas completamente conectadas, cada una de tamaño 2048, con una función de activación ReLU, una capa de abandono con una probabilidad de abandono de 0,8 y una capa de puntuación final con una activación sigmoidea. Sólo se ajustan las capas de puntuación, con 6,8 millones de parámetros entrenables. Los pesos entrenables se optimizan utilizando el algoritmo AdaGrad con un minibatch de tamaño 32, una tasa de aprendizaje de 0,0001 y se entrenan para hasta 10.000 pasos. Se utilizó un clúster con 60 GPU NVIDIA A100 para el entrenamiento del modelo.
Este documento está disponible en arxiv bajo licencia CC 4.0.
[7] Estamos describiendo una versión anterior del modelo EfficientNet que previamente hemos puesto en funcionamiento en LinkedIn y que desde entonces ha sido reemplazado por un nuevo modelo. Reconocemos que este modelo no es el más reciente, pero recién ahora podemos informar estos resultados porque el modelo ya no está en uso.