Этот документ доступен на arxiv под лицензией CC 4.0.
Авторы:
(1) Руй Цао, Сингапурский университет менеджмента;
(2) Мин Шань Хи, Сингапурский университет дизайна и технологий;
(3) Адриэль Куек, Национальные лаборатории DSO;
(4) Вен-Хо Чонг, Сингапурский университет менеджмента;
(5) Рой Ка-Вэй Ли, Сингапурский университет дизайна и технологий
(6) Цзин Цзян, Сингапурский университет менеджмента.
Мы реализуем все модели в библиотеке PyTorch с версией CUDA11.2. Мы используем графический процессор Tesla V 100, каждый из которых имеет выделенную память объемом 32 ГБ. Для моделей, специально реализованных для обнаружения мемов ненависти, мы берем для повторной реализации опубликованные автором коды [4]. Для предварительно обученных моделей, которые можно найти в библиотеке Huggingface, мы используем пакеты Huggingface [5], в частности BERT [4], VisualBERT [18] и модель BLIP. Гор ViLBERT [23], берем выпущенный код от авторов [6]. Для ALBEF [17] и BLIP-2 [15] мы используем пакеты из библиотеки LAVIS [7].
Для каждого изображения мема мы ограничиваем общую длину текста мема и общей подписи к изображению (либо из модели субтитров, либо путем запроса о содержании изображения) до 65. Для каждого дополнительного вопроса мы ограничиваем его длину до короче 20. Если объединение предложения превышает ограниченную длину, предложение будет усечено, в противном случае, если предложение короче ограниченной длины, оно будет дополнено. Мы установили количество эпох обучения равным 10 для всех моделей.
Количество параметров модели сведено в Таблице 11.
Из-за ограничения места в Таблице 6 мы показываем только результаты точности исследований абляции. Полные результаты, включая AUC и точность, представлены в Таблице 12.
В разделе 5.5 мы приводим визуализацию случаев сравнения ProCapPromptHate с базовым PromptHate. Из-за нехватки места мы опускаем примеры из двух других наборов данных. В этой части мы предоставляем больше случаев визуализации. Случаи из набора данных HarM показаны в Таблице 9, а случаи из набора данных MAMI показаны в Таблице 10.
В разделе 5 мы сообщаем результаты только в том случае, если модели используют Pro-Cap для всех контрольных вопросов. В этой части мы сообщаем результаты (с сущностями) при использовании ответов на один зондирующий вопрос в Таблице 13.
Согласно результатам, мы видим, что модели, использующие ответы на один зондирующий вопрос, являются мощными, а некоторые даже превосходят эвристические методы, задающие все зондирующие вопросы (например, использование вопроса о национальности в FHM лучше, чем использование всех зондирующих вопросов). Он отмечает, что использование всех пробных подписей может быть не оптимальным решением и может привести к созданию нерелевантных описаний изображений. Например, столкнувшись с ненавистным мемом, нацеленным на чернокожих, бессмысленно спрашивать о религии людей на изображении. Интересно, что на МАМИ наилучшие результаты достигаются только при использовании ответов на зондирующий вопрос о поле. Потому что МАМИ содержит только ненавистные мемы о женщинах. Многообещающее направление могло бы научить модель динамически выбирать зондирующие вопросы, необходимые для обнаружения различных мемов.
[4] CLIP-BERT/MOMENTA: https://github.com/LCS2-IIITD/MOMENTA;DisMultiHate: https://gitlab.com/bottle_shop/safe/dismultihate; PromptHate: https://gitlab.com/bottle_shop/safe/prompthate
[5] https://huggingface.co/
[6] https://github.com/facebookresearch/vilbert-multi-task
[7] https://github.com/salesforce/LAVIS эвристически задает все наводящие вопросы (например, использование