516 odczyty
516 odczyty

Test AI Truth: Nowe badanie testuje dokładność 13 głównych modeli AI

przez Language Models (dot tech)5m2025/04/08
Read on Terminal Reader

Za długo; Czytać

DeepMind wprowadza LongFact i SAFE, narzędzia do pomiaru i poprawy dokładności faktów w dużych modelach językowych. SAFE wykorzystuje wyszukiwarki do sprawdzania odpowiedzi AI, często wyprzedzając anotatory ludzkie.
featured image - Test AI Truth: Nowe badanie testuje dokładność 13 głównych modeli AI
Language Models (dot tech) HackerNoon profile picture
0-item

Autorzy :

(1) Jerry Wei, Google DeepMind i Lead współpracownicy;

(2) Chengrun Yang, Google DeepMind i Lead współpracownicy;

(3) Xinying Song, Google DeepMind i Lead współpracownicy;

(4) Yifeng Lu, Google DeepMind i Lead współpracownicy;

Nathan Hu, Google DeepMind i Uniwersytet Stanforda;

(6) Jie Huang, Google DeepMind i Uniwersytet Illinois w Urbana-Champaign;

(7) Dustin Tran, Google DeepMind;

(8) Daiyi Peng, Google DeepMind

(9) Ruibo Liu, Google DeepMind;

(10) Da Huang, Google DeepMind

(11) Cosmo Du, Google DeepMind;

(12) Quoc V. Le, Google DeepMind.

Authors:

(1) Jerry Wei, Google DeepMind i Lead współpracownicy;

(2) Chengrun Yang, Google DeepMind i Lead współpracownicy;

(3) Xinying Song, Google DeepMind i Lead współpracownicy;

(4) Yifeng Lu, Google DeepMind i Lead współpracownicy;

Nathan Hu, Google DeepMind i Uniwersytet Stanforda;

(6) Jie Huang, Google DeepMind i Uniwersytet Illinois w Urbana-Champaign;

(7) Dustin Tran, Google DeepMind;

(8) Daiyi Peng, Google DeepMind

(9) Ruibo Liu, Google DeepMind;

(10) Da Huang, Google DeepMind

(11) Cosmo Du, Google DeepMind;

(12) Quoc V. Le, Google DeepMind.

Abstrakcja i 1 Wprowadzenie

2 LongFact: Korzystanie z LLM do generowania wielotematowego punktu odniesienia dla długofalowej rzeczywistości

3 Bezpieczne:agenci LLM jako autorzy faktów

4 agenci LLM mogą być lepszymi anotatorami faktów niż ludzie

5 F1@k: Rozszerzenie F1 z odwołaniem z długości preferowanej przez człowieka

6 Większe LLM są bardziej faktyczne

7 Powiązane prace

8 Ograniczenia

9 Konkluzje, uznania, wkład autora i referencje

Appendix

A. Często zadawane pytania

B. Szczegóły LongFact

C. Bezpieczne szczegóły

D. Szczegóły metryczne

E. Dalsza analiza

abstrakcyjna

Duże modele językowe (LLM) często generują treści zawierające błędy faktyczne, gdy odpowiadają na zaproszenia do wyszukiwania faktów na otwarte tematy. Aby porównać rzeczywistość długiego kształtu modelu w otwartych domenach, najpierw używamy GPT-4 do generowania LongFact, zestawu zaproszeń zawierającego tysiące pytań obejmujących 38 tematów. Następnie proponujemy, że agenci LLM mogą być używani jako zautomatyzowani oceniacze długiego kształtu rzeczywistości za pomocą metody, którą nazywamy wyszukiwanym zwiększonym ocenianiem rzeczywistości (SAFE). SAFE wykorzystuje LLM do podzielenia długiego kształtu odpowiedzi na zbiór indywidualnych faktów i do oceny dokładności każdego faktu za pomocą procesu wielostopniowego uzasad


Empirycznie pokazujemy, że agenci LLM mogą wyprzedzać crowdsourced human annotators — na zestawie ∼16k indywidualnych faktów, SAFE zgadza się z crowdsourced human annotators 72% czasu, a na losowym podzbiorze 100 przypadków niezgodności, SAFE wygrywa 76% czasu. W tym samym czasie, SAFE jest ponad 20 razy tańszy niż ludzkie anotatory. Porównujemy również trzynaście modeli językowych na LongFact w czterech rodzinach modeli (Gemini, GPT, Claude i PaLM-2), stwierdzając, że większe modele językowe zazwyczaj osiągają lepszą długą formę faktyczności. LongFact, SAFE i wszystkie eksperymentalne kody są dostępne pod adresem https://github.com/google-deepmind/long


Figure 1: Our automatic factuality evaluator, SAFE, uses a large language model to rate the factuality of a long-form response to a given prompt using Google Search. We empirically demonstrate that SAFE outperforms human annotators while being more than 20 times cheaper (Section 4).

1 Wprowadzenie

Duże modele językowe (LLM) znacznie się poprawiły w ostatnich latach (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, między innymi), ale nadal brakuje wiarygodności w odpowiedzi na dogłębne pytania dotyczące faktyczności. w szczególności często wytwarzają błędy faktyczne, w których twierdzenie sprzeczne jest z ustaloną wiedzą o podstawowej prawdzie (Huang et al., 2023; Zhang et al., 2023, między innymi).[1] Na przykład modele mogą reagować z niepoprawnymi informacjami na temat ustalonych faktów, takich jak daty, statystyki, a nawet zawód gwiazdy (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023). Te b


W niniejszym artykule proponujemy nowy zestaw wskazówek o nazwie LongFact, metodę oceny o nazwie SAFE oraz metrykę (F1@K) do ilościowego określania rzeczywistości długofalowej odpowiedzi długofalowej.


• Używamy GPT-4[2] do generowania nowego zestawu prośb o porównanie rzeczywistości długiej formy w dużych modelach językowych, które nazywamy LongFact (sekcja 2). LongFact składa się z 2280 prośb o wyszukiwanie faktów, które żądają odpowiedzi długiej formy w 38 ręcznie wybranych tematach. Według naszej wiedzy LongFact jest pierwszym zestawem prośb o ocenę rzeczywistości długiej formy w szerokiej gamie domen. Udostępniamy LongFact publicznie pod adresem https://github.com/google-deepmind/ long-form-factuality/tree/main/longfact.


• Proponujemy metodę wykorzystania agenta LLM do automatycznej oceny rzeczywistości długiej formy w odpowiedziach modelowych. Używamy modelu językowego, aby najpierw rozłożyć odpowiedź długiej formy na poszczególne fakty, a następnie dla każdego faktu zaproponować zapytania sprawdzające fakty, aby wysłać do API wyszukiwania Google i uzasadnić, czy fakt jest obsługiwany przez wyniki wyszukiwania (sekcja 3). Nazywamy tę metodę SAFE (Search-Augmented Factuality Evaluator).[3] Empirycznie, SAFE wyprzedza crowdsourced human annotators, zgadzając się z 72% anotacji ludzkich z Min et al. (2023) i wygrywając 76% przypadków niezgodności z losową próbą 100 przypadków niezgodności (sekcja 4


• Proponujemy, aby przy ilościowaniu długofalowej rzeczywistości odpowiedzi modelu, F1 można wykorzystać za pośrednictwem hiperparametru, który szacuje ludzką preferowaną „idealną” liczbę faktów w odpowiedzi. Dlatego wprowadzamy F1@K, który (oprócz pomiaru dokładności faktycznej odpowiedzi jako stosunku faktów obsługiwanych) przywołuje jako stosunek faktów obsługiwanych do zmiennej pożądanej liczby faktów obsługiwanych K.


• Prowadzimy szeroką ocenę 13 dużych modeli językowych w czterech rodzinach modeli (Gemini, GPT, Claude i PaLM-2) na LongFact (sekcja 6).


Niniejszy dokument jest dostępny w archiwum pod licencją CC by 4.0 Deed.

Niniejszy dokument jest dostępny w archiwum pod licencją CC by 4.0 Deed.

Dostępne w Archiwum

[1] Koncentrujemy się na faktyczności i błędach faktycznych, a nie na halucynacjach, ponieważ nasza proponowana metoda oceny koncentruje się na ustaleniu, czy odpowiedź jest faktyczna w odniesieniu do zewnętrznej ustalonej wiedzy (faktyczności), a nie czy odpowiedź jest zgodna z wewnętrzną wiedzą modelu (halucynacją).


[2] Używamy gpt-4-0613 dla GPT-4.


[3] W naszej implementacji SAFE używamy gpt-3.5-turbo-0125 jako modelu językowego i Serper (dostępny pod adresem https://serper.dev/) jako API wyszukiwania Google.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks