Cet article est disponible sur arxiv sous licence CC 4.0.
Auteurs:
(1) Rui Cao, Université de gestion de Singapour ;
(2) Ming Shan Hee, Université de design et de technologie de Singapour ;
(3) Adriel Kuek, Laboratoires nationaux DSO ;
(4) Wen-Haw Chong, Université de gestion de Singapour ;
(5) Roy Ka-Wei Lee, Université de design et de technologie de Singapour
(6) Jing Jiang, Université de gestion de Singapour.
Nous implémentons tous les modèles sous la bibliothèque PyTorch avec la version CUDA11.2. Nous utilisons le GPU Tesla V 100, chacun doté d'une mémoire dédiée de 32 Go. Pour les modèles spécifiquement mis en œuvre pour la détection des mèmes haineux, nous prenons les codes publiés par l'auteur pour la réimplémentation [4]. Pour les modèles pré-entraînés qui peuvent être trouvés dans la bibliothèque Huggingface, nous utilisons les packages de Huggingface [5], en particulier le BERT [4], VisualBERT [18] et le modèle BLIP. Gor ViLBERT [23], nous reprenons le code publié par les auteurs [6]. Pour ALBEF [17] et BLIP-2 [15], nous utilisons les packages sous la bibliothèque LAVIS [7]
Pour chaque image mème, nous limitons la longueur totale du texte mème et de la légende de l'image générique (soit à partir du modèle de sous-titrage, soit en posant des questions sur le contenu de l'image) à 65. Pour chaque question supplémentaire, nous limitons sa longueur à inférieure à 20. Si la concaténation de la phrase dépasse la longueur limitée, la phrase sera tronquée, sinon, si la phrase est plus courte que la longueur limitée, elle sera complétée. Nous avons fixé le nombre d'époques de formation à 10 pour tous les modèles.
Le nombre de paramètres du modèle est résumé dans le tableau 11.
En raison du manque d'espace, nous montrons uniquement les résultats d'exactitude des études d'ablation dans le tableau 6. Les résultats complets, y compris l'ASC et l'exactitude, sont fournis dans le tableau 12.
Dans la section 5.5, nous fournissons une visualisation de cas permettant de comparer ProCapPromptHate avec le PromptHate de base. En raison de contraintes d'espace, nous omettons les exemples des deux autres ensembles de données. Nous proposons plus de cas de visualisation dans cette partie. Les cas de l'ensemble de données HarM sont illustrés dans le tableau 9 et les cas de l'ensemble de données MAMI sont présentés dans le tableau 10.
Dans la section 5, nous rapportons les résultats uniquement lorsque les modèles utilisent Pro-Cap pour toutes les questions d'approfondissement. Dans cette partie, nous rapportons les résultats (avec les entités) en utilisant les réponses à une seule question d'approfondissement dans le tableau 13.
D'après les résultats, nous observons que les modèles utilisant les réponses à une seule question d'investigation sont tous puissants et certains surpassent même heuristiquement le fait de poser toutes les questions d'investigation (par exemple, il est préférable d'utiliser la question demandant la nationalité sur FHM que d'utiliser toutes les questions d'investigation). Il souligne que l’utilisation de toutes les légendes de sondage n’est peut-être pas la solution optimale et peut générer des descriptions d’images non pertinentes. Par exemple, face à un mème haineux ciblant les Noirs, cela n’a aucun sens de demander quelle est la religion des personnes représentées sur l’image. Fait intéressant, sur MAMI, c'est en utilisant uniquement les réponses à la question approfondie sur le sexe que l'on obtient les meilleures performances. C'est parce que MAMI ne contient que des mèmes haineux sur la femme. Une direction prometteuse entraînerait le modèle à sélectionner dynamiquement des questions d’investigation essentielles à la détection des mèmes pour différents mèmes.
[4] CLIP-BERT/MOMENTA : https://github.com/LCS2-IIITD/MOMENTA ; DisMultiHate : https://gitlab.com/bottle_shop/safe/dismultihate ; PromptHate : https://gitlab.com/bottle_shop/safe/prompthate
[5] https://huggingface.co/
[6] https://github.com/facebookresearch/vilbert-multi-task
[7] https://github.com/salesforce/LAVIS poser de manière heuristique toutes les questions d'approfondissement (par exemple, en utilisant