516 читања
516 читања

Тест ИИ истине: Нова студија тестира тачност 13 главних модела ИИ

од стране Language Models (dot tech)5m2025/04/08
Read on Terminal Reader

Предуго; Читати

ДеепМинд уводи ЛонгФацт и САФЕ, алате за мерење и побољшање тачности чињеница у великим језичким моделима. САФЕ користи претраживаче за проверу чињеница АИ одговора, често надмашујући људске коментаре. Бенцхмаркинг показује да већи модели као што је ГПТ-4 дају прецизније дугачке одговоре.
featured image - Тест ИИ истине: Нова студија тестира тачност 13 главних модела ИИ
Language Models (dot tech) HackerNoon profile picture
0-item

Autori :

(1) Џери Веи, Гоогле ДеепМинд и водећи доприносиоци;

(2) Цхенгрун Ианг, Гоогле ДеепМинд и Лиде доприносиоци;

(3) Xinying Song, Google DeepMind и Lead доприносиоци;

(4) Иифенг Лу, Гоогле ДеепМинд и доприносиоци Лиде;

(5) Натан Ху, Гоогле ДеепМинд и Станфорд Универзитет;

(6) Џеи Хуанг, Гоогле ДеепМинд и Универзитет у Илиноису у Урбани-Шампејну;

(7) Дастин Тран, Гоогле ДеепМинд

(8) Даиии Пенг, Гоогле ДеепМинд;

(9) Ruibo Liu, Google DeepMind;

10) Da Huang, Google DeepMind;

(11) Cosmo Du, Google DeepMind;

Квоц В. Ле, Гоогле ДеепМинд

Authors:

(1) Џери Веи, Гоогле ДеепМинд и водећи доприносиоци;

(2) Цхенгрун Ианг, Гоогле ДеепМинд и Лиде доприносиоци;

(3) Xinying Song, Google DeepMind и Lead доприносиоци;

(4) Иифенг Лу, Гоогле ДеепМинд и доприносиоци Лиде;

(5) Натан Ху, Гоогле ДеепМинд и Станфорд Универзитет;

(6) Џеи Хуанг, Гоогле ДеепМинд и Универзитет у Илиноису у Урбани-Шампејну;

(7) Дастин Тран, Гоогле ДеепМинд

(8) Даиии Пенг, Гоогле ДеепМинд;

(9) Ruibo Liu, Google DeepMind;

10) Da Huang, Google DeepMind;

(11) Cosmo Du, Google DeepMind;

(12) Quoc V. Le, Google DeepMind.

АБСТРАКТ И 1 УВОД

2 ЛонгФацт: Коришћење ЛЛМ-а за генерисање мулти-тематске референтне тачке за чињенице дугог облика

3 Сигурни:ЛЛМ агенти као аутор чињеница

4 ЛЛМ агенти могу бити бољи анотатори чињеница него људи

5 F1@k: Проширење Ф1 са повлачењем из људске префериране дужине

6 Већи ЛЛМ-ови су више чињенични

7 Povezani poslovi

8 Ограничења

9 Закључак, признања, ауторски допринос и референце

Appendix

A. Često postavljana pitanja

Б. ЛонгФацт детаљи

C. Bezbedni detalji

Метрички детаљи

E. Daljnja analiza

Абстракција

Велики језички модели (ЛЛМ) често генеришу садржај који садржи чињеничне грешке када одговарају на позиве за тражење чињеница на отвореним темама. Да би се упоредила чињеничност дугог облика модела у отвореним доменама, прво користимо ГПТ-4 да генеришемо ЛонгФацт, позивни скуп који садржи хиљаде питања која покривају 38 тема. Затим предлажемо да се агенти ЛЛМ-а могу користити као аутоматизовани евалуатори за дугообразну чињеничност кроз метод који називамо Евалуатор за повећану чињеничност у претраживању (САФЕ). САФЕ користи ЛЛМ да разбије дугоформни одговор на скуп појединачних чињеница и да процени тачност сваке чињенице користећи


Емпиријски, демонстрирамо да агенти ЛЛМ-а могу да превазиђу аннотаторе из групе људи – на скупу од ∼16к појединачних чињеница, САФЕ се слаже са аннотаторима из групе људи 72% времена, а на случајном подскупу од 100 случајева неслагања, САФЕ побеђује 76% времена. Истовремено, САФЕ је више од 20 пута јефтинији од аннотатора из групе људи. Такође смо упоредили тринаест модела језика на ЛонгФацт-у преко четири породице модела (Гемини, ГПТ, Клод и ПаЛМ-2), откривајући да већи језички модели генерално остварују бољу чињеницу дугог облика. ЛонгФацт, САФЕ и сви експериментални ко


Figure 1: Our automatic factuality evaluator, SAFE, uses a large language model to rate the factuality of a long-form response to a given prompt using Google Search. We empirically demonstrate that SAFE outperforms human annotators while being more than 20 times cheaper (Section 4).

1 Увод

Велики језички модели (LLM) су значајно побољшани у последњих неколико година (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, између осталог), али и даље немају поузданост у одговору на детаљна питања о чињеницама. Посебно, они често производе чињеничне грешке у којима тврдња противи утврђеном знању о основној истини (Huang et al., 2023; Zhang et al., 2023, између осталог).[1] На пример, модели могу одговорити са погрешним информацијама о утврђеним чињеницама као што су датуми, статистика, или чак занимање славне личности (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023). Ове чињени


У овом документу, предлажемо нови скуп позива под називом ЛонгФацт, метод евалуације под називом САФЕ, и метрику (Ф1@К) за квантификовање чињеничности дугог облика дугог облика одговора.


• Користимо ГПТ-4[2] да бисмо генерисали нови скуп позива за упоређивање чињеница дугог облика у великим језичким моделима, који називамо ЛонгФацт (Сецтион 2). ЛонгФацт се састоји од 2.280 позива за претраживање чињеница које траже одговор дугог облика преко 38 ручно одабраних тема. По нашем знању, ЛонгФацт је први скуп позива за процену чињеница дугог облика у широком спектру домена. Јавно доступно је на https://github.com/google-deepmind/ long-form-factuality/tree/main/longfact.


• Предлажемо метод коришћења агента ЛЛМ-а да би се аутоматски проценила чињеница дугог облика у одговорима на моделе. Користимо језички модел да прво раздвојимо одговор дугог облика у појединачне чињенице, затим за сваку чињеницу предложимо упита за проверу чињеница за слање на Google претраживачки АПИ и разлог да ли чињеница подржава резултате претраге (Део 3). Називамо ову методу САФЕ (Евалуатор чињенице побољшане претрагом).[3] Емпиријски, САФЕ превазилази аннотаторе за људе из групе, слажући се са 72% људских аннотација из Мин и др. (2023) и освајајући 76% случајева неслагања


• Предлажемо да се када се квантификује чињеничност дугог облика одговора модела, Ф1 може користити преко хиперпараметра који процењује људски преферирани „идеални“ број чињеница у одговору. Стога уводимо Ф1@К, који (поред мерења чињеничне тачности одговора као односа подржаних чињеница) мере подсећа као однос обезбеђених подржаних чињеница према променљивом жељеном броју подржаних чињеница К.


• Ми спроводимо опсежну референцу тринаест великих модела језика у четири породице модела (Гемини, ГПТ, Цлоде и ПаЛМ-2) на ЛонгФацт-у (Сецтион 6). Ми процењујемо одговоре модела користећи САФЕ и квантификујемо перформансе користећи Ф1@К, откривајући да, генерално, већи језички модели постижу бољу чињеничност дугог облика.


Овај документ је доступан на архиву под лиценцом CC by 4.0 Deed.

Ovaj papir jeДоступно у архивипод лиценцом CC by 4.0 Deed.

Доступно у архиви

[1] Фокусирамо се на чињеничност и чињеничне грешке, а не на халуцинације, јер се наш предложени метод процене фокусира на одређивање да ли је одговор чињеничан у односу на спољашње утврђено знање (фактуалност), а не да ли је одговор у складу са унутрашњим знањем модела (халуцинација).


[2] Користимо gpt-4-0613 за GPT-4.


[3] У нашој имплементацији САФЕ-а користимо gpt-3.5-turbo-0125 као језички модел и Серпер (доступан на https://serper.dev/) као Google претраживачки АПИ.

L O A D I N G
. . . comments & more!

About Author

Language Models (dot tech) HackerNoon profile picture
Language Models (dot tech)@languagemodels
Large Language Models (LLMs) ushered in a technological revolution. We breakdown how the most important models work.

ХАНГ ТАГС

ОВАЈ ЧЛАНАК ЈЕ ПРЕДСТАВЉЕН У...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks