Yazarlar:
(1) Rafael Rafailo, Stanford Üniversitesi ve Eşit katkı; daha önce listelenen daha genç yazarlar;
(2) Archit Sharma, Stanford Üniversitesi ve Eşit katkı; daha önce listelenen daha genç yazarlar;
(3) Eric Mitchel, Stanford Üniversitesi ve Eşit katkı; daha önce listelenen daha genç yazarlar;
(4) Stefano Ermon, CZ Biohub;
(5) Christopher D. Manning, Stanford Üniversitesi;
(6) Chelsea Finn, Stanford Üniversitesi.
4 Doğrudan Tercih Optimizasyonu
7 Tartışma, Teşekkürler ve Referanslar
Matematiksel Türevler
A.1 KL-Kısıtlı Ödül Maksimizasyonu Hedefinin Optimumunu Türetme
A.2 Bradley-Terry Modeli Altında DPO Hedefinin Türetilmesi
A.3 Plackett-Luce Modeli Altında DPO Hedefinin Türetilmesi
A.4 DPO Hedefinin Gradyanının Türetilmesi ve A.5 Lemma 1 ve 2'nin Kanıtı
B DPO Uygulama Ayrıntıları ve Hiperparametreler
C Deneysel Kurulum ve C.1 IMDb Duygu Deneyi ve Temel Ayrıntılar Hakkında Daha Fazla Bilgi
C.2 GPT-4 özetleme ve diyalog kazanma oranlarını hesaplama istemleri
C.3 Olasılıksızlık temel çizgisi
D Ek Ampirik Sonuçlar
D.1 Çeşitli N ve D.2 Örnek Yanıtlar ve GPT-4 Yargıları için En İyi N temel çizgisinin performansı
Büyük ölçekli gözetimsiz dil modelleri (LM'ler) geniş dünya bilgisi ve bazı muhakeme becerileri öğrenirken, eğitimlerinin tamamen gözetimsiz doğası nedeniyle davranışlarının kesin kontrolünü sağlamak zordur. Böyle bir yönlendirilebilirlik elde etmek için mevcut yöntemler, model nesillerinin göreceli kalitesinin insan etiketlerini toplar ve gözetimsiz LM'yi bu tercihlerle uyumlu hale getirmek için genellikle insan geri bildiriminden (RLHF) gelen takviyeli öğrenme ile ince ayarlar. Ancak RLHF karmaşık ve genellikle istikrarsız bir prosedürdür, önce insan tercihlerini yansıtan bir ödül modeline uyar ve ardından orijinal modelden çok uzaklaşmadan bu tahmini ödülü en üst düzeye çıkarmak için takviyeli öğrenmeyi kullanarak büyük gözetimsiz LM'yi ince ayarlar. Bu makalede, RLHF'deki ödül modelinin kapalı formda karşılık gelen en uygun politikanın çıkarılmasını sağlayan ve standart RLHF problemini yalnızca basit bir sınıflandırma kaybıyla çözmemize olanak tanıyan yeni bir parametrelendirmesini tanıtıyoruz. Doğrudan Tercih Optimizasyonu (DPO) adını verdiğimiz ortaya çıkan algoritma, kararlı, performanslı ve hesaplama açısından hafiftir ve ince ayar sırasında LM'den örnekleme veya önemli hiperparametre ayarlaması yapma ihtiyacını ortadan kaldırır. Deneylerimiz, DPO'nun LM'leri insan tercihleriyle uyumlu hale getirmek için mevcut yöntemler kadar veya daha iyi ince ayar yapabileceğini göstermektedir. Özellikle, DPO ile ince ayar, nesillerin duygusunu kontrol etme yeteneğinde PPO tabanlı RLHF'yi aşar ve özetleme ve tek turlu diyalogda yanıt kalitesini eşleştirir veya iyileştirirken uygulaması ve eğitimi önemli ölçüde daha basittir.
Çok büyük veri kümeleri üzerinde eğitilen büyük gözetimsiz dil modelleri (LM'ler) şaşırtıcı yetenekler kazanır [11, 7, 40, 8]. Ancak, bu modeller çok çeşitli hedeflere, önceliklere ve beceri setlerine sahip insanlar tarafından üretilen veriler üzerinde eğitilir. Bu hedeflerden ve beceri setlerinden bazılarını taklit etmek istenmeyebilir; örneğin, AI kodlama asistanımızın bunları düzeltmek için yaygın programlama hatalarını anlamasını isteyebilirken, yine de kod üretirken, modelimizi eğitim verilerinde bulunan (potansiyel olarak nadir) yüksek kaliteli kodlama yeteneğine doğru yönlendirmek isteriz. Benzer şekilde, dil modelimizin insanların %50'si tarafından inanılan yaygın bir yanlış anlamanın farkında olmasını isteyebiliriz, ancak modelin bu yanlış anlamanın kendisiyle ilgili sorguların %50'sinde doğru olduğunu iddia etmesini kesinlikle istemeyiz! Başka bir deyişle, modelin çok geniş bilgi ve yeteneklerinden istenen yanıtları ve davranışı seçmek, güvenli, performanslı ve kontrol edilebilir AI sistemleri oluşturmak için çok önemlidir [26]. Mevcut yöntemler genellikle LM'leri takviyeli öğrenme (RL) kullanarak insan tercihleriyle eşleşecek şekilde yönlendirirken,
Mevcut yöntemler tarafından kullanılan RL tabanlı hedefin, basit bir ikili çapraz entropi hedefi ile tam olarak optimize edilebileceğini ve tercih öğrenme hattını büyük ölçüde basitleştireceğini göstereceğiz.
Yüksek düzeyde, mevcut yöntemler, insanların güvenli ve yararlı bulduğu davranış türlerini temsil eden düzenlenmiş insan tercihleri kümelerini kullanarak istenen davranışları bir dil modeline aşılar. Bu tercih öğrenme aşaması, büyük bir metin veri kümesi üzerinde büyük ölçekli gözetimsiz ön eğitimin ilk aşamasından sonra gerçekleşir. Tercih öğrenimine yönelik en basit yaklaşım, yüksek kaliteli yanıtların insan gösterimleri üzerinde gözetimli ince ayar yapmak olsa da, en başarılı yöntem sınıfı insan (veya yapay zeka) geri bildiriminden (RLHF/RLAIF; [12, 2]) takviyeli öğrenmedir. RLHF yöntemleri, bir ödül modelini insan tercihleri veri kümesine uygular ve ardından orijinal modelden aşırı derecede uzaklaşmadan yüksek ödül atanmış yanıtlar üretmek için bir dil modeli politikasını optimize etmek için RL'yi kullanır. RLHF etkileyici konuşma ve kodlama yeteneklerine sahip modeller üretirken, RLHF boru hattı gözetimli öğrenmeden önemli ölçüde daha karmaşıktır, birden fazla LM'yi eğitmeyi ve eğitim döngüsünde LM politikasından örnekleme yapmayı içerir ve önemli hesaplama maliyetleri doğurur.
Bu makalede, açık ödül modellemesi veya pekiştirmeli öğrenme olmadan, bir dil modelinin doğrudan insan tercihlerine uyması için nasıl optimize edileceğini gösteriyoruz. Mevcut RLHF algoritmalarıyla (KL-sapma kısıtlamasıyla ödül maksimizasyonu) aynı hedefi örtük olarak optimize eden, ancak uygulanması basit ve eğitilmesi kolay bir algoritma olan Doğrudan Tercih Optimizasyonu'nu (DPO) öneriyoruz. Sezgisel olarak, DPO güncellemesi tercih edilen yanıtların tercih edilmeyen yanıtlara göreli logaritmik olasılığını artırır, ancak naif bir olasılık oranı hedefi ile meydana geldiğini bulduğumuz model dejenerasyonunu önleyen dinamik, örnek başına önem ağırlığı içerir. Mevcut algoritmalar gibi DPO da, belirli bir ödül fonksiyonunun deneysel tercih verileriyle ne kadar iyi hizalandığını ölçen teorik bir tercih modeline (Bradley-Terry modeli gibi; [5]) dayanır. Ancak, mevcut yöntemler bir ödül modelini eğitmek ve ardından öğrenilen ödül modelini optimize eden bir politikayı eğitmek için bir tercih kaybını tanımlamak üzere tercih modelini kullanırken, DPO tercih kaybını doğrudan politikanın bir fonksiyonu olarak tanımlamak için bir değişken değişikliği kullanır. Model yanıtları üzerindeki insan tercihlerine ilişkin bir veri kümesi verildiğinde, DPO, basit bir ikili çapraz entropi hedefi kullanarak bir politikayı optimize edebilir ve tercih verilerine uyan örtük bir ödül fonksiyonuna göre en uygun politikayı üretebilir.
Ana katkımız, tercihlerden dil modelleri eğitmek için basit bir RL içermeyen algoritma olan Doğrudan Tercih Optimizasyonu'dur (DPO). Deneylerimiz, DPO'nun, duygu düzenleme, özetleme ve diyalog gibi görevlerde 6B'a kadar parametreye sahip dil modelleri kullanarak tercihlerden öğrenmek için PPO tabanlı RLHF dahil olmak üzere mevcut yöntemler kadar etkili olduğunu göstermektedir.