AIR-Bench Foundation: более 19 тыс. образцов данных для комплексной оценки звука

Слишком долго; Читать

Базовый тест AIR-Bench оценивает 19 аудиозадач с использованием более 19 тыс. образцов. GPT-4 генерирует разнообразные вопросы с вариантами выбора, разработанными для проверки моделей.
featured image - AIR-Bench Foundation: более 19 тыс. образцов данных для комплексной оценки звука
Benchmarking in Business Technology and Software HackerNoon profile picture
0-item

Авторы:

(1) Цянь Ян, Чжэцзянский университет, Равный вклад. Эта работа была проведена во время стажировки Цянь Ян в Alibaba Group;

(2) Цзинь Сюй, Alibaba Group, Равный вклад;

(3) Венжуй Лю, Чжэцзянский университет;

(4) Юнфэй Чу, Alibaba Group;

(5) Сяохуань Чжоу, Alibaba Group;

(6) Ичонг Ленг, Alibaba Group;

(7) Юаньцзюнь Льв, Alibaba Group;

(8) Чжоу Чжао, Alibaba Group и корреспондент Чжоу Чжао ([email protected]);

(9) Ичун Ленг, Чжэцзянский университет

(10) Чан Чжоу, Alibaba Group и корреспондент Чан Чжоу ([email protected]);

(11) Цзинжэнь Чжоу, Alibaba Group.

Таблица ссылок

Аннотация и 1. Введение

2 Связанные работы

3 AIR-Bench и 3.1 Обзор

3.2 Базовый бенчмарк

3.3 Тест чата

3.4 Стратегия оценки

4 Эксперимента

4.1 Модели

4.2 Основные результаты

4.3 Оценка человека и 4.4 Исследование абляции позиционного смещения

5 Заключение и ссылки

Подробные результаты базового бенчмарка

3.2 Базовый бенчмарк

Источник данных. Мы собрали более 19 тыс. образцов данных для измерения фундамента, охватывающих 19 различных подзадач. Источник данных и статистика


Таблица 1: Статистика базового бенчмарка.


Таблица 2: Статистика и примеры бенчмарка чата.


приведены в Таблице 1. Чтобы обеспечить справедливую и всестороннюю оценку каждой возможности, мы стремились к равномерному распределению проблем, связанных с различными возможностями, в процессе сбора данных. Все аудиоисточники были получены из исходных подмножеств разработки или тестирования, чтобы предотвратить утечку данных.


Запрос с одним выбором и ссылка. Запрос Q формируется путем объединения вопроса q и вариантов выбора C. Для вопроса q мы в основном строим вопросы через GPT-4 (OpenAI, 2023), за исключением задач QA, поскольку наборы данных изначально содержат вопросы, и мы можем напрямую повторно использовать их. В частности, мы разрабатываем подсказку для отдельной задачи и предоставляем три вопроса в качестве демонстраций. Впоследствии GPT-4 генерирует дополнительные разнообразные вопросы на основе этих входных данных. Сгенерированные вопросы просматриваются вручную, и для каждой задачи выбирается 50 различных вопросов. Изменчивость формата вопроса направлена на оценку способности модели следовать инструкциям, а не на чрезмерную зависимость от определенных шаблонов. Для каждого вопроса мы дополнительно генерируем варианты выбора C из разных источников: 1) Для задач с выбором в исходных наборах данных, таких как AVQA (Yang et al., 2022), мы напрямую повторно используем его; 2) Для задач классификации мы случайным образом выбираем варианты из предопределенного набора категорий, которые будут служить в качестве вариантов выбора; 3) Для других задач мы предлагаем GPT-4 напрямую генерировать варианты выбора, состоящие из одного правильного варианта и трех неправильных вариантов. Мы поощряем эти неправильные варианты напоминать правильный, что делает задачу с одним выбором более сложной. Эталонным ответом является золотой правильный выбор. Чтобы избежать смещения позиции, варианты выбора случайным образом перемешиваются


Данная статья доступна на arxiv по лицензии CC BY 4.0 DEED.


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks