paint-brush
Pro-Cap: Использование модели Frozen Vision-Language для обнаружения ненавистных мемов: Приложениек@memeology
201 чтения

Pro-Cap: Использование модели Frozen Vision-Language для обнаружения ненавистных мемов: Приложение

Слишком долго; Читать

В этом приложении представлены подробные сведения о реализации моделей обнаружения мемов ненависти, результаты исследований абляции, визуальное сравнение Pro-Cap и базового PromptHate, а также результаты, подчеркивающие влияние использования ответов на отдельные зондирующие вопросы и предлагающие направления оптимизации моделей обнаружения мемов.
featured image - Pro-Cap: Использование модели Frozen Vision-Language для обнаружения ненавистных мемов: Приложение
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

Этот документ доступен на arxiv под лицензией CC 4.0.

Авторы:

(1) Руй Цао, Сингапурский университет менеджмента;

(2) Мин Шань Хи, Сингапурский университет дизайна и технологий;

(3) Адриэль Куек, Национальные лаборатории DSO;

(4) Вен-Хо Чонг, Сингапурский университет менеджмента;

(5) Рой Ка-Вэй Ли, Сингапурский университет дизайна и технологий

(6) Цзин Цзян, Сингапурский университет менеджмента.

Таблица ссылок

Аннотация и введение

Связанных с работой

Предварительный

Предлагаемый метод

Эксперимент

Заключение и ссылки

Приложение

ПРИЛОЖЕНИЕ

Таблица 9: Сравнение Pro-CapPromptHate и базового PromptHate в наборе данных HarM.

ДЕТАЛИ РЕАЛИЗАЦИИ

Мы реализуем все модели в библиотеке PyTorch с версией CUDA11.2. Мы используем графический процессор Tesla V 100, каждый из которых имеет выделенную память объемом 32 ГБ. Для моделей, специально реализованных для обнаружения мемов ненависти, мы берем для повторной реализации опубликованные автором коды [4]. Для предварительно обученных моделей, которые можно найти в библиотеке Huggingface, мы используем пакеты Huggingface [5], в частности BERT [4], VisualBERT [18] и модель BLIP. Гор ViLBERT [23], берем выпущенный код от авторов [6]. Для ALBEF [17] и BLIP-2 [15] мы используем пакеты из библиотеки LAVIS [7].


Таблица 12: Сравнение моделей без тегов дополненных изображений.


Таблица 13. Эффективность модели, когда задается только один наводящий вопрос.


Для каждого изображения мема мы ограничиваем общую длину текста мема и общей подписи к изображению (либо из модели субтитров, либо путем запроса о содержании изображения) до 65. Для каждого дополнительного вопроса мы ограничиваем его длину до короче 20. Если объединение предложения превышает ограниченную длину, предложение будет усечено, в противном случае, если предложение короче ограниченной длины, оно будет дополнено. Мы установили количество эпох обучения равным 10 для всех моделей.


Количество параметров модели сведено в Таблице 11.

B. РЕЗУЛЬТАТЫ ПОЛНОГО АБЛЯЦИОННОГО ИССЛЕДОВАНИЯ

Из-за ограничения места в Таблице 6 мы показываем только результаты точности исследований абляции. Полные результаты, включая AUC и точность, представлены в Таблице 12.

C СЛУЧАИ ВИЗУАЛИЗАЦИИ

В разделе 5.5 мы приводим визуализацию случаев сравнения ProCapPromptHate с базовым PromptHate. Из-за нехватки места мы опускаем примеры из двух других наборов данных. В этой части мы предоставляем больше случаев визуализации. Случаи из набора данных HarM показаны в Таблице 9, а случаи из набора данных MAMI показаны в Таблице 10.

D РЕЗУЛЬТАТЫ С PRO-CAP ОБ ОДНОЙ ЦЕЛИ

В разделе 5 мы сообщаем результаты только в том случае, если модели используют Pro-Cap для всех контрольных вопросов. В этой части мы сообщаем результаты (с сущностями) при использовании ответов на один зондирующий вопрос в Таблице 13.


Согласно результатам, мы видим, что модели, использующие ответы на один зондирующий вопрос, являются мощными, а некоторые даже превосходят эвристические методы, задающие все зондирующие вопросы (например, использование вопроса о национальности в FHM лучше, чем использование всех зондирующих вопросов). Он отмечает, что использование всех пробных подписей может быть не оптимальным решением и может привести к созданию нерелевантных описаний изображений. Например, столкнувшись с ненавистным мемом, нацеленным на чернокожих, бессмысленно спрашивать о религии людей на изображении. Интересно, что на МАМИ наилучшие результаты достигаются только при использовании ответов на зондирующий вопрос о поле. Потому что МАМИ содержит только ненавистные мемы о женщинах. Многообещающее направление могло бы научить модель динамически выбирать зондирующие вопросы, необходимые для обнаружения различных мемов.





[4] CLIP-BERT/MOMENTA: https://github.com/LCS2-IIITD/MOMENTA;DisMultiHate: https://gitlab.com/bottle_shop/safe/dismultihate; PromptHate: https://gitlab.com/bottle_shop/safe/prompthate


[5] https://huggingface.co/


[6] https://github.com/facebookresearch/vilbert-multi-task


[7] https://github.com/salesforce/LAVIS эвристически задает все наводящие вопросы (например, использование