paint-brush
Encontrando rostos gerados por IA na natureza: modelopor@botbeat
172 leituras

Encontrando rostos gerados por IA na natureza: modelo

Muito longo; Para ler

A IA pode criar rostos falsos realistas para golpes online. Este trabalho propõe um método para detectar rostos gerados por IA em imagens.
featured image - Encontrando rostos gerados por IA na natureza: modelo
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Autores:

(1) Gonzalo J. Aniano Porcile, LinkedIn;

(2) Jack Gindi, LinkedIn;

(3) Shivansh Mundra, LinkedIn;

(4) James R. Verbus, LinkedIn;

(5) Hany Farid, LinkedIn e Universidade da Califórnia, Berkeley.

Tabela de links

3. Modelo

Treinamos um modelo para distinguir rostos reais daqueles gerados por IA. O modelo subjacente é a rede neural convolucional EfficientNet-B1 [7] [30]. Descobrimos que esta arquitetura oferece melhor desempenho em comparação com outras arquiteturas de última geração (Swin-T [22], Resnet50 [14], XceptionNet [7]). A rede EfficientNet-B1 possui 7,8 milhões de parâmetros internos que foram pré-treinados no conjunto de dados de imagens ImageNet1K [30].


Nosso pipeline consiste em três etapas: (1) uma etapa de pré-processamento de imagem; (2) uma etapa de incorporação de imagem; e (3) uma fase de pontuação. O modelo toma como entrada uma imagem colorida e gera uma pontuação numérica no intervalo [0, 1]. Pontuações próximas de 0 indicam que a imagem provavelmente é real e pontuações próximas de 1 indicam que a imagem provavelmente é gerada por IA.



Tabela 2. Treinamento de linha de base e avaliação verdadeiro positivo (classificação correta de uma imagem gerada por IA, média de todos os mecanismos de síntese (TPR)). Em cada condição, a taxa de falsos positivos é de 0,5% (classificando incorretamente uma face real (FPR)). Também é relatada a pontuação F1 definida como 2TP/(2TP + FP + FN). TP, FP e FN representam o número de verdadeiros positivos, falsos positivos e falsos negativos, respectivamente. In-engine/out-of-engine indica que as imagens foram criadas com os mesmos/diferentes mecanismos de síntese usados no treinamento.



A etapa de pré-processamento da imagem redimensiona a imagem de entrada para uma resolução de 512×512 pixels. Essa imagem colorida redimensionada é então passada para uma camada de aprendizagem por transferência EfficientNet-B1. No estágio de pontuação, a saída da camada de aprendizagem por transferência é alimentada para duas camadas totalmente conectadas, cada uma de tamanho 2.048, com uma função de ativação ReLU, uma camada de abandono com probabilidade de abandono de 0,8 e uma camada de pontuação final com ativação sigmoidal. Apenas as camadas de pontuação – com 6,8 milhões de parâmetros treináveis – são ajustadas. Os pesos treináveis são otimizados usando o algoritmo AdaGrad com um minilote de tamanho 32, uma taxa de aprendizado de 0,0001 e treinados para até 10.000 etapas. Um cluster com 60 GPUs NVIDIA A100 foi utilizado para treinamento do modelo.


Este artigo está disponível no arxiv sob licença CC 4.0.


[7] Estamos descrevendo uma versão mais antiga do modelo EfficientNet que operacionalizamos anteriormente no LinkedIn e que foi substituída por um novo modelo. Reconhecemos que este modelo não é o mais recente, mas só agora podemos reportar estes resultados uma vez que o modelo já não está em uso.