Autores:
(1) Gonzalo J. Aniano Porcile, LinkedIn;
(2) Jack Gindi, LinkedIn;
(3) Shivansh Mundra, LinkedIn;
(4) James R. Verbus, LinkedIn;
(5) Hany Farid, LinkedIn e Universidade da Califórnia, Berkeley.
Treinamos um modelo para distinguir rostos reais daqueles gerados por IA. O modelo subjacente é a rede neural convolucional EfficientNet-B1 [7] [30]. Descobrimos que esta arquitetura oferece melhor desempenho em comparação com outras arquiteturas de última geração (Swin-T [22], Resnet50 [14], XceptionNet [7]). A rede EfficientNet-B1 possui 7,8 milhões de parâmetros internos que foram pré-treinados no conjunto de dados de imagens ImageNet1K [30].
Nosso pipeline consiste em três etapas: (1) uma etapa de pré-processamento de imagem; (2) uma etapa de incorporação de imagem; e (3) uma fase de pontuação. O modelo toma como entrada uma imagem colorida e gera uma pontuação numérica no intervalo [0, 1]. Pontuações próximas de 0 indicam que a imagem provavelmente é real e pontuações próximas de 1 indicam que a imagem provavelmente é gerada por IA.
A etapa de pré-processamento da imagem redimensiona a imagem de entrada para uma resolução de 512×512 pixels. Essa imagem colorida redimensionada é então passada para uma camada de aprendizagem por transferência EfficientNet-B1. No estágio de pontuação, a saída da camada de aprendizagem por transferência é alimentada para duas camadas totalmente conectadas, cada uma de tamanho 2.048, com uma função de ativação ReLU, uma camada de abandono com probabilidade de abandono de 0,8 e uma camada de pontuação final com ativação sigmoidal. Apenas as camadas de pontuação – com 6,8 milhões de parâmetros treináveis – são ajustadas. Os pesos treináveis são otimizados usando o algoritmo AdaGrad com um minilote de tamanho 32, uma taxa de aprendizado de 0,0001 e treinados para até 10.000 etapas. Um cluster com 60 GPUs NVIDIA A100 foi utilizado para treinamento do modelo.
Este artigo está disponível no arxiv sob licença CC 4.0.
[7] Estamos descrevendo uma versão mais antiga do modelo EfficientNet que operacionalizamos anteriormente no LinkedIn e que foi substituída por um novo modelo. Reconhecemos que este modelo não é o mais recente, mas só agora podemos reportar estes resultados uma vez que o modelo já não está em uso.