paint-brush
Pro-Cap : Exploiter un modèle de langage de vision gelé pour la détection des mèmes haineux : Annexepar@memeology
201 lectures

Pro-Cap : Exploiter un modèle de langage de vision gelé pour la détection des mèmes haineux : Annexe

Trop long; Pour lire

Cette annexe fournit des détails détaillés sur la mise en œuvre de modèles de détection de mèmes haineux, des informations issues d'études d'ablation, des comparaisons visuelles de Pro-Cap et de PromptHate de base, ainsi que des résultats soulignant l'impact de l'utilisation de réponses à des questions d'enquête uniques, suggérant des directions d'optimisation pour les modèles de détection de mèmes.
featured image - Pro-Cap : Exploiter un modèle de langage de vision gelé pour la détection des mèmes haineux : Annexe
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

Cet article est disponible sur arxiv sous licence CC 4.0.

Auteurs:

(1) Rui Cao, Université de gestion de Singapour ;

(2) Ming Shan Hee, Université de design et de technologie de Singapour ;

(3) Adriel Kuek, Laboratoires nationaux DSO ;

(4) Wen-Haw Chong, Université de gestion de Singapour ;

(5) Roy Ka-Wei Lee, Université de design et de technologie de Singapour

(6) Jing Jiang, Université de gestion de Singapour.

Tableau des liens

Résumé et introduction

Travaux connexes

Préliminaire

Méthode proposée

Expérience

Conclusion et références

annexe

ANNEXE

Tableau 9 : Comparaison entre l’ensemble de données Pro-CapPromptHate et PromptHate de base sur HarM.

A DÉTAILS DE MISE EN ŒUVRE

Nous implémentons tous les modèles sous la bibliothèque PyTorch avec la version CUDA11.2. Nous utilisons le GPU Tesla V 100, chacun doté d'une mémoire dédiée de 32 Go. Pour les modèles spécifiquement mis en œuvre pour la détection des mèmes haineux, nous prenons les codes publiés par l'auteur pour la réimplémentation [4]. Pour les modèles pré-entraînés qui peuvent être trouvés dans la bibliothèque Huggingface, nous utilisons les packages de Huggingface [5], en particulier le BERT [4], VisualBERT [18] et le modèle BLIP. Gor ViLBERT [23], nous reprenons le code publié par les auteurs [6]. Pour ALBEF [17] et BLIP-2 [15], nous utilisons les packages sous la bibliothèque LAVIS [7]


Tableau 12 : Comparaison de modèles sans balises d’image augmentées.


Tableau 13 : Performance du modèle en posant uniquement une seule question d'approfondissement.


Pour chaque image mème, nous limitons la longueur totale du texte mème et de la légende de l'image générique (soit à partir du modèle de sous-titrage, soit en posant des questions sur le contenu de l'image) à 65. Pour chaque question supplémentaire, nous limitons sa longueur à inférieure à 20. Si la concaténation de la phrase dépasse la longueur limitée, la phrase sera tronquée, sinon, si la phrase est plus courte que la longueur limitée, elle sera complétée. Nous avons fixé le nombre d'époques de formation à 10 pour tous les modèles.


Le nombre de paramètres du modèle est résumé dans le tableau 11.

RÉSULTATS COMPLETS DE L’ÉTUDE D’ABLATION B

En raison du manque d'espace, nous montrons uniquement les résultats d'exactitude des études d'ablation dans le tableau 6. Les résultats complets, y compris l'ASC et l'exactitude, sont fournis dans le tableau 12.

CAS DE VISUALISATION C

Dans la section 5.5, nous fournissons une visualisation de cas permettant de comparer ProCapPromptHate avec le PromptHate de base. En raison de contraintes d'espace, nous omettons les exemples des deux autres ensembles de données. Nous proposons plus de cas de visualisation dans cette partie. Les cas de l'ensemble de données HarM sont illustrés dans le tableau 9 et les cas de l'ensemble de données MAMI sont présentés dans le tableau 10.

D RÉSULTATS AVEC PRO-CAP SUR UNE CIBLE

Dans la section 5, nous rapportons les résultats uniquement lorsque les modèles utilisent Pro-Cap pour toutes les questions d'approfondissement. Dans cette partie, nous rapportons les résultats (avec les entités) en utilisant les réponses à une seule question d'approfondissement dans le tableau 13.


D'après les résultats, nous observons que les modèles utilisant les réponses à une seule question d'investigation sont tous puissants et certains surpassent même heuristiquement le fait de poser toutes les questions d'investigation (par exemple, il est préférable d'utiliser la question demandant la nationalité sur FHM que d'utiliser toutes les questions d'investigation). Il souligne que l’utilisation de toutes les légendes de sondage n’est peut-être pas la solution optimale et peut générer des descriptions d’images non pertinentes. Par exemple, face à un mème haineux ciblant les Noirs, cela n’a aucun sens de demander quelle est la religion des personnes représentées sur l’image. Fait intéressant, sur MAMI, c'est en utilisant uniquement les réponses à la question approfondie sur le sexe que l'on obtient les meilleures performances. C'est parce que MAMI ne contient que des mèmes haineux sur la femme. Une direction prometteuse entraînerait le modèle à sélectionner dynamiquement des questions d’investigation essentielles à la détection des mèmes pour différents mèmes.





[4] CLIP-BERT/MOMENTA : https://github.com/LCS2-IIITD/MOMENTA ; DisMultiHate : https://gitlab.com/bottle_shop/safe/dismultihate ; PromptHate : https://gitlab.com/bottle_shop/safe/prompthate


[5] https://huggingface.co/


[6] https://github.com/facebookresearch/vilbert-multi-task


[7] https://github.com/salesforce/LAVIS poser de manière heuristique toutes les questions d'approfondissement (par exemple, en utilisant