Fundació AIR-Bench: més de 19.000 mostres de dades per a una avaluació completa d'àudio

Font de dades. Vam recollir més de 19.000 mostres de dades per a la dimensió de la base, que inclouen 19 subtasques diferents. La font de dades i les estadístiques

es proporcionen a la Taula 1. Per garantir una avaluació justa i completa de cada capacitat, hem pretès una distribució uniforme dels problemes relacionats amb les diferents habilitats durant el procés de recollida de dades. Totes les fonts d'àudio es van obtenir dels subconjunts de desenvolupament o de prova originals per evitar la fuga de dades.

Consulta i referència d'opció única. La consulta Q es forma mitjançant la concatenació d'una pregunta q i les opcions del candidat C. Per a la pregunta q, construïm preguntes principalment mitjançant GPT-4 (OpenAI, 2023), excepte per a les tasques de control de qualitat, ja que els conjunts de dades contenen preguntes de manera inherent i podem re- utilitzar-los. Concretament, dissenyem el missatge per a la tasca diferent i proporcionem tres preguntes com a demostracions. Posteriorment, GPT-4 genera preguntes addicionals diverses basades en aquestes entrades. Les preguntes generades es revisen manualment i es seleccionen 50 preguntes diferents per a cada tasca. La variabilitat en el format de la pregunta té com a objectiu avaluar la capacitat del model per seguir instruccions en lloc de dependre excessivament de plantilles específiques. Per a cada pregunta, generem més opcions candidates C a partir de diferents fonts: 1) Per a tasques amb opcions en conjunts de dades originals com AVQA (Yang et al., 2022), la reutilitzem directament; 2) Per a les tasques de classificació, seleccionem aleatòriament opcions del conjunt predeterminat de categories per servir com a opcions candidates; 3) Per a altres tasques, demanem a GPT-4 que generi directament les opcions candidates, que consisteixen en una opció correcta i tres opcions incorrectes. Recomanem que aquestes opcions incorrectes s'assemblen a la correcta, fent que la tasca d'elecció única sigui més difícil. La resposta de referència és l'opció correcta d'or. Per evitar el biaix de posició, les opcions dels candidats es barregen aleatòriament

Aquest document està disponible a arxiv sota la llicència CC BY 4.0 DEED.

Fundació AIR-Bench: més de 19.000 mostres de dades per a una avaluació completa d'àudio

Massa Llarg; Per llegir

Taula d'enllaços

3.2 Referent de la Fundació

About Author

Etiquetes penjant

AQUEST ARTICLE VA SER PRESENTAT A...

Categories

Trending Topics

Fundació AIR-Bench: més de 19.000 mostres de dades per a una avaluació completa d'àudio

Massa Llarg; Per llegir

Taula d'enllaços

3.2 Referent de la Fundació

About Author

Etiquetes penjant

AQUEST ARTICLE VA SER PRESENTAT A...

HISTÒRIES RELACIONADES

Categories

Trending Topics