516 okumalar
516 okumalar

AI Gerçek Testi: Yeni Çalışma 13 Büyük AI Modelin Doğruluğunu Test Ediyor

Çok uzun; Okumak

DeepMind, büyük dil modellerinde gerçek doğruluğunu ölçmek ve geliştirmek için araçlar olan LongFact ve SAFE'yi tanıttı. SAFE, AI yanıtlarını doğrulamak için arama motorlarını kullanır, çoğu zaman insan anotasyonlarını aşar. Benchmarking, GPT-4 gibi daha büyük modellerin daha doğru uzun formlu yanıtlar sunmasını gösterir.
featured image - AI Gerçek Testi: Yeni Çalışma 13 Büyük AI Modelin Doğruluğunu Test Ediyor
Language Models (dot tech) HackerNoon profile picture
0-item
Şöyle

Yazarlar :

Şöyle

(1) Jerry Wei, Google DeepMind ve bir Lead katkısı;

Şöyle

(2) Chengrun Yang, Google DeepMind ve bir Lead katkısı;

Şöyle

(3) Xinying Song, Google DeepMind ve bir Lead katkısı;

Şöyle

(4) Yifeng Lu, Google DeepMind ve bir Lead katkısı;

Şöyle

(5) Nathan Hu, Google DeepMind ve Stanford Üniversitesi;

Şöyle

(6) Jie Huang, Google DeepMind ve Illinois Üniversitesi Urbana-Champaign;

Şöyle

Dustin Tran, Google DeepMind

Şöyle

Daiyi Peng, Google DeepMind

Şöyle

(9) Ruibo Liu, Google DeepMind

Şöyle

(10) Da Huang, Google DeepMind

Şöyle

11) Cosmo Du, Google DeepMind

Şöyle

Quoc V. Le, Google DeepMind Hakkında

Şöyle

Authors:

(1) Jerry Wei, Google DeepMind ve bir Lead katkısı;

(2) Chengrun Yang, Google DeepMind ve bir Lead katkısı;

(3) Xinying Song, Google DeepMind ve bir Lead katkısı;

(4) Yifeng Lu, Google DeepMind ve bir Lead katkısı;

(5) Nathan Hu, Google DeepMind ve Stanford Üniversitesi;

(6) Jie Huang, Google DeepMind ve Illinois Üniversitesi Urbana-Champaign;

Dustin Tran, Google DeepMind

Daiyi Peng, Google DeepMind

(9) Ruibo Liu, Google DeepMind

(10) Da Huang, Google DeepMind

11) Cosmo Du, Google DeepMind

Quoc V. Le, Google DeepMind Hakkında

Abstract ve 1 Giriş

2 LongFact: Uzun formlu gerçeklik için bir çok konuya yönelik bir referans oluşturmak için LLM'leri kullanmak

3 Safe:LLM ajanları gerçeklik otoratörleri olarak

4 LLM ajanları insanlardan daha iyi gerçeklik anotatörleri olabilir

5 F1@k: İnsanların tercih ettiği uzunluktan F1'i geri çağırma ile uzatma

6 Daha Büyük LLM Daha Gerçekçi

7 İlgili İşler

8 Sınırlamalar

9 Sonuçlar, Ödüller, Yazar Katkıları ve Referanslar

Appendix

A. Sıkça Sorulan Sorular

B. Uzun Detaylar

C. Güvenli Detaylar

Metrik Detaylar

E. Daha fazla analiz

abstraklık

Büyük dil modelleri (LLM'ler) genellikle gerçek arama talimatlarına cevap verirken gerçek hataları içeren içeriği oluşturur. Açık alanlarda bir modelin uzun form gerçeği benchmark etmek için, öncelikle LongFact, 38 konuyu kapsayan binlerce soru içeren bir prompt setini oluşturmak için GPT-4'yi kullanırız. Sonra LLM ajanlarının, arama artırılmış gerçeklik değerlendiricisi (SAFE) olarak adlandırdığımız bir yöntemle uzun form gerçeği için otomatik değerlendiriciler olarak kullanılabileceğini öneririz. SAFE, bir LLM'yi, uzun form gerçeği bir dizi bireysel gerçeğe bölmek ve her gerçeğin doğruluğunu değerlendirmek için kullanır ve Google Arama'ya arama sorgularını göndermek ve arama sonuçları tarafından desteklenen bir gerçeği belir


Empirik olarak, LLM ajanlarının toplu kaynaklı insan anotatörlerinden daha iyi performans gösterebileceğini kanıtlıyoruz – ∼16k bireysel gerçeklerin bir dizi üzerinde, SAFE, toplu kaynaklı insan anotatörleriyle 72% zamanla aynı fikirde, ve 100 anlaşmazlık vakasının rastgele bir alt kümesinde, SAFE, zamanın% 76'sını kazanır. Aynı zamanda, SAFE, insan anotatörlerinden 20 kat daha ucuzdur. Biz de dört model ailesinde (Gemini, GPT, Claude ve PaLM-2) LongFact, SAFE ve tüm deneysel kodların daha iyi uzun form gerçeği elde ettiğini bulduk.


Figure 1: Our automatic factuality evaluator, SAFE, uses a large language model to rate the factuality of a long-form response to a given prompt using Google Search. We empirically demonstrate that SAFE outperforms human annotators while being more than 20 times cheaper (Section 4).

1 Giriş

Large Language Models (LLMs), son yıllarda önemli ölçüde iyileştirilmiştir (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, diğerleri arasında), ancak derinlemesine gerçeklik soruları yanıtlamak için hala güvenilirlik eksikliği vardır. Özellikle, bir iddianın kurulan temel gerçeğin bilgiye aykırı olduğu gerçek hataları üretir (Huang et al., 2023; Zhang et al., 2023, diğerleri arasında).[1] Örneğin, modeller tarihleri, istatistikleri veya ünlülerin mesleği (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023).


Bu makalede, LongFact adında yeni bir talimat setini, SAFE adında bir değerlendirme yöntemi ve uzun formlu bir yanıtın uzun formlu gerçekliğini ölçmek için bir ölçüt (F1@K) öneriyoruz.


• LongFact (Bölüm 2) olarak adlandırdığımız büyük dil modellerinde uzun form gerçeği benchmarking için yeni bir prompt set oluşturmak için GPT-4 kullanıyoruz. LongFact, 38 el ile seçilen konuya uzun form yanıtlar talep eden 2280 gerçek arama promptinden oluşur. Bildiğimiz kadarıyla, LongFact, geniş bir yelpazede uzun form gerçeği değerlendirmek için ilk prompt setidir. LongFact'i https://github.com/google-deepmind/ long-form-factuality/tree/main/longfact adresinden halka açık olarak sunuyoruz.


• Model yanıtlarında uzun form gerçeği otomatik olarak değerlendirmek için bir LLM ajanı kullanmanın bir yöntemi öneririz. Dil modelini, önce uzun form gerçeği bireysel gerçeğe parçalamak için kullanırız, sonra her gerçeğe, bir Google Arama API'ye göndermek için gerçeğin doğrulama sorgularını öneririz ve gerçeğin arama sonuçları tarafından desteklendiğine dair bir nedeni öneririz (Bölüm 3). Bu yöntemi SAFE (Search-Augmented Factuality Evaluator) olarak adlandırırız.[3] Empirik olarak, SAFE, Min et al.'dan insan anotasyonlarının% 72'sini kabul ederek ve rastgele bir örnekten% 100 anlaşmazlık durumunun% 76'sini kazanır (Bölüm 4). SAFE aynı zamanda insan anotasyonlarından 20x


• Bir model yanıtının uzun formlu gerçekliğini ölçerken, F1’in bir yanıtda insan tarafından tercih edilen “ideal” gerçeklerin sayısını tahmin eden bir hiperparametre aracılığıyla kullanılabileceğini öneririz. Bu nedenle, bir yanıtın gerçek doğruluğunu desteklenen gerçeklerin oranı olarak ölçmenin yanı sıra, sağlanan desteklenen gerçeklerin K’nın değişken arzu edilen sayısına göre oranı olarak hatırlatılan F1@K’yi tanıtıyoruz.


• LongFact (Bölüm 6) üzerinde dört model ailesinde (Gemini, GPT, Claude ve PaLM-2) 13 büyük dil modeli kapsamlı bir benchmark gerçekleştirdik. SAFE kullanılarak model yanıtlarını değerlendiriyoruz ve performansını F1@K kullanarak ölçeriz, genel olarak daha büyük dil modellerinin daha iyi uzun form gerçeği elde ettiğini bulduk.


Şöyle

Bu makale CC by 4.0 Deed lisansı altında mevcuttur.

Şöyle

Bu makale CC by 4.0 Deed lisansı altında mevcuttur.

Arşivde kullanılabilir

[1] Biz halüsinasyon değil, gerçeklik ve gerçek hataları üzerinde odaklanıyoruz, çünkü önerilen değerlendirme yöntemimiz, bir yanıtın, modelin iç bilgisiyle uyumlu olup olmadığı (halüsinasyon) değil, dış kurulmuş bilgi (faktualite) ile ilgili olarak gerçek olup olmadığını belirlemeye odaklanmaktadır.


[2] GPT-4 için gpt-4-0613 kullanıyoruz.


[3] SAFE uygulamamızda, dil modeli olarak gpt-3.5-turbo-0125 ve Google Arama API olarak Serper (https://serper.dev/) kullanıyoruz.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks