Autorzy:
(1) Jerry Wei, Google DeepMind i Lead contributors;
(2) Chengrun Yang, Google DeepMind i Lead contributors;
(3) Xinying Song, Google DeepMind i Lead contributors;
(4) Yifeng Lu, Google DeepMind i Lead contributors;
(5) Nathan Hu, Google DeepMind i Stanford University;
(6) Jie Huang, Google DeepMind i University of Illinois at Urbana-Champaign;
Dustin Tran, Google DeepMind;
<(8) Dai Peng, Google DeepMind;Autorzy:
Strona główna > Autorzy >(1) Jerry Wei, Google DeepMind i współpracownicy Lead;
(2) Chengrun Yang, Google DeepMind i współpracownicy Lead;
(3) Xinying Song, Google DeepMind i wiodący współpracownicy;
(4) Yifeng Lu, Google DeepMind i współpracownicy Lead;
(5) Nathan Hu, Google DeepMind i Uniwersytet Stanforda;
(6) Jie Huang, Google DeepMind i Uniwersytet Illinois w Urbana-Champaign;
(7) Dustin Tran, Google DeepMind;
(8) Daiyi Peng, Google DeepMind;
(9) Zbigniew Łukasz, Google DeepMind;
(10) Dąbrowski, Google DeepMind;
(11) Cosmo Du, Google DeepMind;
(12) Quoc V. Le, Google DeepMind.
Tabela linków
Abstrakt i 1 Wprowadzenie2 LongFact: Korzystanie z LLM do generowania multi-topic benchmark dla long-form faktyczności
2 LongFact: Korzystanie z LLM do generowania multi-topic benchmark dla long-form rzeczywistości3 Bezpieczne: agenci LLM jako autorzy faktów
3 Bezpieczne: agenci LLM jako autorzy faktów4 agenci LLM mogą być lepszymi anotatorami faktyczności niż ludzie
4 agenci LLM mogą być lepszymi anotatorami faktów niż ludzie5 F1@k: Rozszerzenie F1 z odwołaniem z ludzkiej preferowanej długości
5 F1@k: Rozszerzenie F1 z odwołaniem z ludzkiej preferowanej długości6 Większe LLM są bardziej faktyczne
6 Większe LLM są bardziej faktyczne7 Powiązane Praca8 Ograniczenia9 Konkluzje, uznania, wkład autora i odniesienia
9 Podsumowanie, uznanie, Wkład autora i odniesieniaWpisy dodatkowe
ZałącznikA. Najczęściej zadawane pytania
A. Najczęściej zadawane pytaniaB. Szczegóły LongFactC. szczegóły SAFED. Szczegóły metryczneE. Dalsza analizaABSTRAKCJA
Wielkie modele językowe (LLM) często generują zawartość zawierającą błędy faktyczne podczas reagowania na wezwania do wyszukiwania faktów na otwarte tematy. Aby porównać rzeczywistość długiego kształtu modelu w otwartych domenach, najpierw używamy GPT-4 do generowania LongFact, zestawu błyskawicznego składającego się z tysięcy pytań obejmujących 38 tematów. Następnie proponujemy, że agenci LLM mogą być używani jako zautomatyzowani oceniacze długiego kształtu rzeczywistości za pomocą metody, którą nazywamy Search-Augmented Factuality Evaluator (SAFE). SAFE wykorzystuje LLM do podzielenia długiego kształtu odpowiedzi na zbiór indywidualnych faktów i oceny dokładności każdego faktu za pomocą procesu wielostopni
Empirycznie pokazujemy, że agenci LLM mogą wyprzedzać crowdsourced human annotators — na zestawie ∼16k indywidualnych faktów, SAFE zgadza się z crowdsourced human annotators 72% czasu, a na losowym podsumowaniu 100 przypadków niezgodności, SAFE wygrywa 76% czasu. W tym samym czasie, SAFE jest ponad 20 razy tańszy niż ludzkie anotatory. Porównujemy również trzynaście modeli językowych na LongFact w czterech rodzinach modeli (Gemini, GPT, Claude i PaLM-2), stwierdzając, że większe modele językowe zazwyczaj osiągają lepszą long-form rzeczywistość. LongFact, SAFE i wszystkie eksperymentalne kody są dostępne pod adresem https://github.com/google-deepmind/
Ten artykuł jest
Ten artykuł jest
[1] Koncentrujemy się na faktach i błędach faktycznych, a nie na halucynacjach, ponieważ nasza proponowana metoda oceny koncentruje się na ustaleniu, czy odpowiedź jest faktyczna w odniesieniu do zewnętrznej ustalonej wiedzy (faktualności), a nie czy odpowiedź jest zgodna z wewnętrzną wiedzą modelu (halucynacją).
[2] Używamy gpt-4-0613 dla GPT-4.
[3] W naszej implementacji SAFE używamy gpt-3.5-turbo-0125 jako modelu językowego i Serper (dostępny pod adresem https://serper.dev/) jako API wyszukiwania Google.