Nowa historia

Test prawdy o sztucznej inteligencji: nowe badanie sprawdza dokładność 13 głównych modeli sztucznej inteligencji

przez Language Models (dot tech)5m2025/04/08
Read on Terminal Reader

Za długo; Czytać

DeepMind wprowadza LongFact i SAFE, narzędzia do pomiaru i poprawy dokładności faktów w dużych modelach językowych. SAFE wykorzystuje wyszukiwarki do sprawdzania odpowiedzi AI, często wyprzedzając anotatory ludzkie.
featured image - Test prawdy o sztucznej inteligencji: nowe badanie sprawdza dokładność 13 głównych modeli sztucznej inteligencji
Language Models (dot tech) HackerNoon profile picture
0-item

Autorzy:

(1) Jerry Wei, Google DeepMind i Lead contributors;

(2) Chengrun Yang, Google DeepMind i Lead contributors;

(3) Xinying Song, Google DeepMind i Lead contributors;

(4) Yifeng Lu, Google DeepMind i Lead contributors;

(5) Nathan Hu, Google DeepMind i Stanford University;

(6) Jie Huang, Google DeepMind i University of Illinois at Urbana-Champaign;

Dustin Tran, Google DeepMind;

<(8) Dai Peng, Google DeepMind;

Autorzy:

Strona główna > Autorzy >

(1) Jerry Wei, Google DeepMind i współpracownicy Lead;

(2) Chengrun Yang, Google DeepMind i współpracownicy Lead;

(3) Xinying Song, Google DeepMind i wiodący współpracownicy;

(4) Yifeng Lu, Google DeepMind i współpracownicy Lead;

(5) Nathan Hu, Google DeepMind i Uniwersytet Stanforda;

(6) Jie Huang, Google DeepMind i Uniwersytet Illinois w Urbana-Champaign;

(7) Dustin Tran, Google DeepMind;

(8) Daiyi Peng, Google DeepMind;

(9) Zbigniew Łukasz, Google DeepMind;

(10) Dąbrowski, Google DeepMind;

(11) Cosmo Du, Google DeepMind;

(12) Quoc V. Le, Google DeepMind.

Tabela linków

Abstrakt i 1 Wprowadzenie

Abstrakt i 1 Wprowadzenie

2 LongFact: Korzystanie z LLM do generowania multi-topic benchmark dla long-form faktyczności

2 LongFact: Korzystanie z LLM do generowania multi-topic benchmark dla long-form rzeczywistości

3 Bezpieczne: agenci LLM jako autorzy faktów

3 Bezpieczne: agenci LLM jako autorzy faktów

4 agenci LLM mogą być lepszymi anotatorami faktyczności niż ludzie

4 agenci LLM mogą być lepszymi anotatorami faktów niż ludzie

5 F1@k: Rozszerzenie F1 z odwołaniem z ludzkiej preferowanej długości

5 F1@k: Rozszerzenie F1 z odwołaniem z ludzkiej preferowanej długości

6 Większe LLM są bardziej faktyczne

6 Większe LLM są bardziej faktyczne

7 Powiązane Praca

7 Powiązane Praca

8 Ograniczenia

8 Ograniczenia

9 Konkluzje, uznania, wkład autora i odniesienia

9 Podsumowanie, uznanie, Wkład autora i odniesienia

Wpisy dodatkowe

Załącznik

A. Najczęściej zadawane pytania

A. Najczęściej zadawane pytania

B. Szczegóły LongFact

B. Szczegóły LongFact

C. szczegóły bezpieczeństwa

C. szczegóły SAFE

D. Szczegóły metryczne

D. Szczegóły metryczne

E. Dalsza analiza

E. Dalsza analiza

ABSTRAKCJA

Wielkie modele językowe (LLM) często generują zawartość zawierającą błędy faktyczne podczas reagowania na wezwania do wyszukiwania faktów na otwarte tematy. Aby porównać rzeczywistość długiego kształtu modelu w otwartych domenach, najpierw używamy GPT-4 do generowania LongFact, zestawu błyskawicznego składającego się z tysięcy pytań obejmujących 38 tematów. Następnie proponujemy, że agenci LLM mogą być używani jako zautomatyzowani oceniacze długiego kształtu rzeczywistości za pomocą metody, którą nazywamy Search-Augmented Factuality Evaluator (SAFE). SAFE wykorzystuje LLM do podzielenia długiego kształtu odpowiedzi na zbiór indywidualnych faktów i oceny dokładności każdego faktu za pomocą procesu wielostopni


Empirycznie pokazujemy, że agenci LLM mogą wyprzedzać crowdsourced human annotators — na zestawie ∼16k indywidualnych faktów, SAFE zgadza się z crowdsourced human annotators 72% czasu, a na losowym podsumowaniu 100 przypadków niezgodności, SAFE wygrywa 76% czasu. W tym samym czasie, SAFE jest ponad 20 razy tańszy niż ludzkie anotatory. Porównujemy również trzynaście modeli językowych na LongFact w czterech rodzinach modeli (Gemini, GPT, Claude i PaLM-2), stwierdzając, że większe modele językowe zazwyczaj osiągają lepszą long-form rzeczywistość. LongFact, SAFE i wszystkie eksperymentalne kody są dostępne pod adresem https://github.com/google-deepmind/


Rysunek 1: Nasz automatyczny oceniacz faktyczności, SAFE, wykorzystuje duży model językowy do oceny faktyczności długiej odpowiedzi na daną prośbę za pomocą wyszukiwarki Google.<img src=

Ten artykuł jest dostępny na arkiv pod licencją CC by 4.0 Deed.

Ten artykuł jest dostępny na arkiv pod licencją CC by 4.0 Deed.

dostępne na arkivdostępne w archiwum„hr”

[1] Koncentrujemy się na faktach i błędach faktycznych, a nie na halucynacjach, ponieważ nasza proponowana metoda oceny koncentruje się na ustaleniu, czy odpowiedź jest faktyczna w odniesieniu do zewnętrznej ustalonej wiedzy (faktualności), a nie czy odpowiedź jest zgodna z wewnętrzną wiedzą modelu (halucynacją).


[2] Używamy gpt-4-0613 dla GPT-4.


[3] W naszej implementacji SAFE używamy gpt-3.5-turbo-0125 jako modelu językowego i Serper (dostępny pod adresem https://serper.dev/) jako API wyszukiwania Google.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks