Yazarlar :
Şöyle(1) Jerry Wei, Google DeepMind ve bir Lead katkısı;
Şöyle(2) Chengrun Yang, Google DeepMind ve bir Lead katkısı;
Şöyle(3) Xinying Song, Google DeepMind ve bir Lead katkısı;
Şöyle(4) Yifeng Lu, Google DeepMind ve bir Lead katkısı;
Şöyle(5) Nathan Hu, Google DeepMind ve Stanford Üniversitesi;
Şöyle(6) Jie Huang, Google DeepMind ve Illinois Üniversitesi Urbana-Champaign;
ŞöyleDustin Tran, Google DeepMind
ŞöyleDaiyi Peng, Google DeepMind
Şöyle(9) Ruibo Liu, Google DeepMind
Şöyle(10) Da Huang, Google DeepMind
Şöyle11) Cosmo Du, Google DeepMind
ŞöyleQuoc V. Le, Google DeepMind Hakkında
ŞöyleAuthors:
(1) Jerry Wei, Google DeepMind ve bir Lead katkısı;
(2) Chengrun Yang, Google DeepMind ve bir Lead katkısı;
(3) Xinying Song, Google DeepMind ve bir Lead katkısı;
(4) Yifeng Lu, Google DeepMind ve bir Lead katkısı;
(5) Nathan Hu, Google DeepMind ve Stanford Üniversitesi;
(6) Jie Huang, Google DeepMind ve Illinois Üniversitesi Urbana-Champaign;
Dustin Tran, Google DeepMind
Daiyi Peng, Google DeepMind
(9) Ruibo Liu, Google DeepMind
(10) Da Huang, Google DeepMind
11) Cosmo Du, Google DeepMind
Quoc V. Le, Google DeepMind Hakkında
Masanın sol tarafı
3 Safe:LLM ajanları gerçeklik otoratörleri olarak
4 LLM ajanları insanlardan daha iyi gerçeklik anotatörleri olabilir
5 F1@k: İnsanların tercih ettiği uzunluktan F1'i geri çağırma ile uzatma
6 Daha Büyük LLM Daha Gerçekçi
9 Sonuçlar, Ödüller, Yazar Katkıları ve Referanslar
Appendix
abstraklık
Büyük dil modelleri (LLM'ler) genellikle gerçek arama talimatlarına cevap verirken gerçek hataları içeren içeriği oluşturur. Açık alanlarda bir modelin uzun form gerçeği benchmark etmek için, öncelikle LongFact, 38 konuyu kapsayan binlerce soru içeren bir prompt setini oluşturmak için GPT-4'yi kullanırız. Sonra LLM ajanlarının, arama artırılmış gerçeklik değerlendiricisi (SAFE) olarak adlandırdığımız bir yöntemle uzun form gerçeği için otomatik değerlendiriciler olarak kullanılabileceğini öneririz. SAFE, bir LLM'yi, uzun form gerçeği bir dizi bireysel gerçeğe bölmek ve her gerçeğin doğruluğunu değerlendirmek için kullanır ve Google Arama'ya arama sorgularını göndermek ve arama sonuçları tarafından desteklenen bir gerçeği belir
Empirik olarak, LLM ajanlarının toplu kaynaklı insan anotatörlerinden daha iyi performans gösterebileceğini kanıtlıyoruz – ∼16k bireysel gerçeklerin bir dizi üzerinde, SAFE, toplu kaynaklı insan anotatörleriyle 72% zamanla aynı fikirde, ve 100 anlaşmazlık vakasının rastgele bir alt kümesinde, SAFE, zamanın% 76'sını kazanır. Aynı zamanda, SAFE, insan anotatörlerinden 20 kat daha ucuzdur. Biz de dört model ailesinde (Gemini, GPT, Claude ve PaLM-2) LongFact, SAFE ve tüm deneysel kodların daha iyi uzun form gerçeği elde ettiğini bulduk.
1 Giriş
Large Language Models (LLMs), son yıllarda önemli ölçüde iyileştirilmiştir (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, diğerleri arasında), ancak derinlemesine gerçeklik soruları yanıtlamak için hala güvenilirlik eksikliği vardır. Özellikle, bir iddianın kurulan temel gerçeğin bilgiye aykırı olduğu gerçek hataları üretir (Huang et al., 2023; Zhang et al., 2023, diğerleri arasında).[1] Örneğin, modeller tarihleri, istatistikleri veya ünlülerin mesleği (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023).
Bu makalede, LongFact adında yeni bir talimat setini, SAFE adında bir değerlendirme yöntemi ve uzun formlu bir yanıtın uzun formlu gerçekliğini ölçmek için bir ölçüt (F1@K) öneriyoruz.
• LongFact (Bölüm 2) olarak adlandırdığımız büyük dil modellerinde uzun form gerçeği benchmarking için yeni bir prompt set oluşturmak için GPT-4 kullanıyoruz. LongFact, 38 el ile seçilen konuya uzun form yanıtlar talep eden 2280 gerçek arama promptinden oluşur. Bildiğimiz kadarıyla, LongFact, geniş bir yelpazede uzun form gerçeği değerlendirmek için ilk prompt setidir. LongFact'i https://github.com/google-deepmind/ long-form-factuality/tree/main/longfact adresinden halka açık olarak sunuyoruz.
• Model yanıtlarında uzun form gerçeği otomatik olarak değerlendirmek için bir LLM ajanı kullanmanın bir yöntemi öneririz. Dil modelini, önce uzun form gerçeği bireysel gerçeğe parçalamak için kullanırız, sonra her gerçeğe, bir Google Arama API'ye göndermek için gerçeğin doğrulama sorgularını öneririz ve gerçeğin arama sonuçları tarafından desteklendiğine dair bir nedeni öneririz (Bölüm 3). Bu yöntemi SAFE (Search-Augmented Factuality Evaluator) olarak adlandırırız.[3] Empirik olarak, SAFE, Min et al.'dan insan anotasyonlarının% 72'sini kabul ederek ve rastgele bir örnekten% 100 anlaşmazlık durumunun% 76'sini kazanır (Bölüm 4). SAFE aynı zamanda insan anotasyonlarından 20x
• Bir model yanıtının uzun formlu gerçekliğini ölçerken, F1’in bir yanıtda insan tarafından tercih edilen “ideal” gerçeklerin sayısını tahmin eden bir hiperparametre aracılığıyla kullanılabileceğini öneririz. Bu nedenle, bir yanıtın gerçek doğruluğunu desteklenen gerçeklerin oranı olarak ölçmenin yanı sıra, sağlanan desteklenen gerçeklerin K’nın değişken arzu edilen sayısına göre oranı olarak hatırlatılan F1@K’yi tanıtıyoruz.
• LongFact (Bölüm 6) üzerinde dört model ailesinde (Gemini, GPT, Claude ve PaLM-2) 13 büyük dil modeli kapsamlı bir benchmark gerçekleştirdik. SAFE kullanılarak model yanıtlarını değerlendiriyoruz ve performansını F1@K kullanarak ölçeriz, genel olarak daha büyük dil modellerinin daha iyi uzun form gerçeği elde ettiğini bulduk.
Bu makale CC by 4.0 Deed lisansı altında mevcuttur.
ŞöyleBu makale CC by 4.0 Deed lisansı altında mevcuttur.
Arşivde kullanılabilir[1] Biz halüsinasyon değil, gerçeklik ve gerçek hataları üzerinde odaklanıyoruz, çünkü önerilen değerlendirme yöntemimiz, bir yanıtın, modelin iç bilgisiyle uyumlu olup olmadığı (halüsinasyon) değil, dış kurulmuş bilgi (faktualite) ile ilgili olarak gerçek olup olmadığını belirlemeye odaklanmaktadır.
[2] GPT-4 için gpt-4-0613 kullanıyoruz.
[3] SAFE uygulamamızda, dil modeli olarak gpt-3.5-turbo-0125 ve Google Arama API olarak Serper (https://serper.dev/) kullanıyoruz.