Аутори:
(1) Џери Веј, Гоогле ДеепМинд и водећи сарадници;
(2) Цхенгрун Ианг, Гоогле ДеепМинд и водећи сарадници;
(3) Ксиниинг Сонг, Гоогле ДеепМинд и водећи сарадници;
(4) Иифенг Лу, Гоогле ДеепМинд и водећи сарадници;
(5) Натхан Ху, Гоогле ДеепМинд и Универзитет Станфорд;
(6) Јие Хуанг, Гоогле ДеепМинд и Универзитет Илиноис у Урбана-Цхампаигн;
(7) Дустин Тран, Гоогле ДеепМинд;
(8) Даиии Пенг, Гоогле ДеепМинд;
(9) Руибо Лиу, Гоогле ДеепМинд;
(10) Да Хуанг, Гоогле ДеепМинд;
(11) Цосмо Ду, Гоогле ДеепМинд;
(12) Куоц В. Ле, Гоогле ДеепМинд.
Табела веза
3 Сафе: ЛЛМ агенти као аутори чињеница
4 Агенти ЛЛМ-а могу бити бољи анотатори чињеница од људи
5 Ф1@к: Проширивање Ф1 са повлачењем са дужине коју преферирају људи
9 Закључак, захвалност, допринос аутора и литература
Додатак
ОДГОВОР: Често постављана питања
АПСТРАКТ
Велики језички модели (ЛЛМ) често генеришу садржај који садржи чињеничне грешке када одговарају на упите за тражење чињеница о отвореним темама. Да бисмо упоредили чињеничност дугог облика модела у отвореним доменима, прво користимо ГПТ-4 да генеришемо ЛонгФацт, скуп брзих порука који се састоји од хиљада питања која обухватају 38 тема. Затим предлажемо да се ЛЛМ агенти могу користити као аутоматизовани евалуатори за дугорочну чињеничност путем методе коју називамо Сеарцх-Аугментед Фацтуалити Евалуатор (САФЕ). САФЕ користи ЛЛМ да разбије дугу форму одговора на скуп појединачних чињеница и да процени тачност сваке чињенице користећи процес резоновања у више корака који се састоји од слања упита за претрагу Гоогле претрази и утврђивања да ли је чињеница подржана резултатима претраге. Штавише, предлажемо проширење резултата Ф1 као агрегиране метрике за чињенично стање дугог облика. Да бисмо то урадили, балансирамо проценат подржаних чињеница у одговору (прецизност) са процентом датих чињеница у односу на хиперпараметар који представља жељену дужину одговора корисника (позив).
Емпиријски, демонстрирамо да ЛЛМ агенти могу надмашити анотаторе из групе људи – на скупу од ∼16 хиљада појединачних чињеница, САФЕ се слаже са анотаторима из групе људи у 72% времена, а на насумичном подскупу од 100 случајева неслагања, САФЕ побеђује у 76% времена. Истовремено, САФЕ је више од 20 пута јефтинији од људских анотатора. Такође смо упоредили тринаест језичких модела на ЛонгФацт-у у четири породице модела (Близанци, ГПТ, Цлауде и ПаЛМ-2), откривајући да већи језички модели генерално постижу бољу чињеничност дугог облика. ЛонгФацт, САФЕ и сав експериментални код доступни су на хттпс://гитхуб. цом/гоогле-деепминд/лонг-форм-фацтуалити.
1 УВОД
Велики језички модели (ЛЛМ) су се значајно побољшали последњих година (Бровн ет ал., 2020; Цховдхери ет ал., 2022; Гоогле, 2023; ОпенАИ, 2023; Гемини Теам, 2023, између осталог), али још увек немају поузданост у одговарању на детаљна питања о чињеницама. Конкретно, они често производе чињеничне грешке у којима је тврдња у супротности са утврђеним знањем о основној истини (Хуанг ет ал., 2023; Зханг ет ал., 2023, између осталог).[1] На пример, модели могу да одговоре нетачним информацијама о утврђеним чињеницама као што су датуми, статистика или чак занимање славне личности (Ли ет ал., 2023; Мин ет ал., 2023; Мухлгаи ет ал., 2023). Ове чињеничне грешке слабе чињеничност језичког модела, чинећи модел непоузданим у многим окружењима из стварног света где се очекује чињенично тачан одговор.
У овом раду предлажемо нови скуп упита под називом ЛонгФацт, метод евалуације назван САФЕ и метрику (Ф1@К) за квантификацију чињеничности дугог облика одговора дугог облика. Затим опсежно вршимо мерење популарних великих језичких модела користећи ове нове скупове података и методе евалуације. Наши доприноси су следећи:
• Користимо ГПТ-4[2] да генеришемо нови скуп упита за бенчмаркинг чињеничности дугог облика у великим језичким моделима, који називамо ЛонгФацт (Одељак 2). ЛонгФацт се састоји од 2.280 упита за тражење чињеница који траже дугачке одговоре на 38 ручно одабраних тема. Према нашим сазнањима, ЛонгФацт је први скуп промпта за процену чињеничности дугог облика у широком спектру домена. ЛонгФацт чинимо јавно доступним на хттпс://гитхуб.цом/гоогле-деепминд/ лонг-форм-фацтуалити/трее/маин/лонгфацт.
• Предлажемо методу коришћења ЛЛМ агента за аутоматску процену чињеничности дугог облика у одговорима модела. Користимо језички модел да прво разложимо дуги одговор на појединачне чињенице, а затим за сваку чињеницу предложимо упите за проверу чињеница које треба послати АПИ-ју Гоогле претраге и образложити да ли је та чињеница подржана резултатима претраге (одељак 3). Овај метод називамо САФЕ (Сеарцх-Аугментед Фацтуалити Евалуатор).[3] Емпиријски, САФЕ надмашује људске анотаторе из групе, слажући се са 72% људских напомена Мин ет ал. (2023) и победио у 76% случајева неслагања из случајног узорка од 100 случајева неслагања (одељак 4). САФЕ је такође 20× јефтинији од људских анотатора. Објављујемо САФЕ на хттпс://гитхуб.цом/ гоогле-деепминд/лонг-форм-фацтуалити/трее/маин/евал/сафе.
• Предлажемо да се, када се квантификује чињенично стање дугог облика одговора модела, Ф1 може користити преко хиперпараметра који процењује „идеалан“ број чињеница у одговору који људи преферирају. Стога уводимо Ф1@К, који (поред мерења чињеничне прецизности одговора као односа подржаних чињеница) мери присећање као однос датих подржаних чињеница према променљивом жељеном броју подржаних чињеница К.
• На ЛонгФацт-у спроводимо опсежно испитивање тринаест великих језичких модела у четири породице модела (Близанци, ГПТ, Цлауде и ПаЛМ-2) (одељак 6). Ми процењујемо одговоре модела користећи САФЕ и квантификујемо перформансе користећи Ф1@К, откривајући да, генерално, већи језички модели постижу бољу чињеничност дугог облика.
Овај рад је
[1] Фокусирамо се на чињенично стање и чињеничне грешке, а не на халуцинације, јер се наш предложени метод евалуације фокусира на утврђивање да ли је одговор чињеничан у односу на екстерно утврђено знање (чињеничност), а не на то да ли је одговор у складу са унутрашњим знањем модела (халуцинација).
[2] Користимо гпт-4-0613 за ГПТ-4.
[3] У нашој имплементацији САФЕ-а користимо гпт-3.5-турбо-0125 као језички модел и Серпер (доступан на хттпс://серпер.дев/) као АПИ за Гоогле претрагу.