paint-brush
Lahat ng Alam Namin Tungkol sa Mabilis na Pag-optimize Ngayonsa pamamagitan ng@textmodels
904 mga pagbabasa
904 mga pagbabasa

Lahat ng Alam Namin Tungkol sa Mabilis na Pag-optimize Ngayon

sa pamamagitan ng Writings, Papers and Blogs on Text Models4m2024/09/24
Read on Terminal Reader

Masyadong mahaba; Upang basahin

Binubuod ng seksyong ito ang iba't ibang diskarte sa agarang pag-optimize, kabilang ang soft prompt-tuning, discrete optimization sa pamamagitan ng gradient-guided na paghahanap, at mga diskarteng batay sa pag-edit. Tinatalakay nito ang paggamit ng mga modelo ng wika sa pagbuo at pagpino ng mga senyas, inihahambing ang mga pamamaraan tulad ng APE at APO, at itinatampok ang pagsasama-sama ng natural na feedback sa wika para sa pagpapabuti ng pagganap ng LLM. Isinasaad din ng gawain ang papel ng mga modelo ng wika bilang mutation at crossover operator sa mga evolutionary algorithm, habang binibigyang-diin ang natatanging diskarte nito sa pag-optimize ng mga prompt nang walang karagdagang pagsasanay.
featured image - Lahat ng Alam Namin Tungkol sa Mabilis na Pag-optimize Ngayon
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Mga may-akda:

(1) Chengrun Yang, Google DeepMind at Equal na kontribusyon;

(2) Xuezhi Wang, Google DeepMind;

(3) Yifeng Lu, Google DeepMind;

(4) Hanxiao Liu, Google DeepMind;

(5) Quoc V. Le, Google DeepMind;

(6) Denny Zhou, Google DeepMind;

(7) Xinyun Chen, Google DeepMind at Equal na kontribusyon.

Talaan ng mga Link

Abstrak at 1. Panimula

2 Opro: Llm bilang Optimizer at 2.1 Desirables of Optimization ng Llms

2.2 Meta-Prompt na Disenyo

3 Pagganyak na Halimbawa: Mathematical Optimization at 3.1 Linear Regression

3.2 Problema sa Travelling Salesman (TSP)

4 Application: Prompt Optimization at 4.1 Problem Setup

4.2 Meta-Prompt na Disenyo

5 Mga Eksperimento sa Mabilis na Pag-optimize at 5.1 Pag-setup ng Pagsusuri

5.2 Pangunahing Resulta

5.3 Pag-aaral ng Ablation

5.4 Overfitting Analysis sa Prompt Optimization at 5.5 Paghahambing sa Evoprompt

6 Kaugnay na Gawain

7 Konklusyon, Pagkilala at Mga Sanggunian

A Ilang Kaso ng Pagkabigo

B Prompting Formats para sa Scorer Llm

C Meta-Prompts at C.1 Meta-Prompt para sa Math Optimization

C.2 Meta-Prompt para sa Prompt Optimization

D Maagap na Optimization Curves sa Natitirang Mga Gawain sa Bbh

E Prompt Optimization sa Bbh Tasks – Tabulated Accuracies and Found Instructions

6 KAUGNAY NA TRABAHO

Mabilis na pag-optimize. Ang mga naunang gawa ay nakabuo ng mga soft prompt-tuning na pamamaraan na nag-optimize sa prompt na kinakatawan bilang mga tuluy-tuloy na vector na partikular sa gawain (Lester et al., 2021; Li & Liang, 2021; Liu et al., 2021; Qin & Eisner, 2021), pati na rin bilang gumaganap ng discrete prompt optimization sa pamamagitan ng gradient-guided search (Shin et al., 2020; Wen et al., 2023; Gao et al., 2020; Chen et al., 2023d) at reinforcement learning (Deng et al., 2022; Zhang et al., 2023). Nagiging hindi naaangkop ang mga diskarteng ito kapag mayroon lamang API na access sa LLM. Ang iba pang mga gawa ay nagdisenyo ng mga diskarte na nakabatay sa pag-edit para sa gradient-free na prompt optimization (Xu et al., 2022; Prasad et al., 2022), kung saan ang pag-edit ay maaaring gawin sa mga operasyong tinukoy ng tao (hal., pagpapalit ng dalawang parirala) (Prasad et al. , 2022) o mga modelo ng wika (hal., pabalik na pagsasalin) (Xu et al., 2022). Ang ilang mga kamakailang gawa ay nag-iimbestiga sa mga LLM para sa agarang pag-optimize (Zhou et al., 2022b; Pryzant et al., 2023; Xu et al., 2023). Sa partikular, unang ginagamit ng APE (Zhou et al., 2022b) ang LLM upang bumuo ng mga paunang tagubilin. Pagkatapos, pipili ang APE ng mga nangungunang tagubilin na may pinakamataas na katumpakan, pagkatapos ay ipo-prompt ang LLM sa bawat indibidwal na pagtuturo upang bumuo ng isang semantically katulad na variant ng paunang pagtuturo. Ang APO (Pryzant et al., 2023) sa bawat hakbang ay nagtuturo sa LLM na gumawa ng text feedback kung paano mag-update ng lumang pagtuturo. Naiiba sa mga diskarte na nakabatay sa pag-edit, ang optimizer na LLM sa aming trabaho ay direktang bumubuo ng mga bagong tagubilin sa bawat hakbang sa pag-optimize, at ang optimizer na LLM ay hinihiling lamang na pahusayin ang katumpakan ng gawain nang hindi kinakailangang gayahin ang mga nakaraang tagubilin. Kung ikukumpara kay Zhou et al. (2022b) at Pryzant et al. (2023), isinasama ng aming proseso sa pag-optimize ang mga nakaraang nabuong tagubilin kasama ang mga marka ng mga ito sa meta-prompt, na nagbibigay-daan sa optimizer LLM na tumuklas ng mga karaniwang pattern ng mga tagubiling may mataas na kalidad.


Pag-prompt gamit ang natural na feedback sa wika. Ang isang kamakailang linya ng trabaho ay nagsisiyasat ng mga diskarte upang mapabuti ang pagganap ng LLM sa pamamagitan ng pag-prompt gamit ang natural na puna ng wika upang baguhin ang output ng modelo, na nagpakita ng pagiging epektibo sa pagbabawas ng mga nakakapinsalang LLM output (Bai et al., 2022; Ganguli et al., 2023), pagpapabuti pangangatwiran (Shinn et al., 2023; Madaan et al., 2023) at pagganap ng code generation (Chen et al., 2023e; Olausson et al., 2023; Shinn et al., 2023; Chen et al., 2023b), mga aplikasyon ng diyalogo (Nair et al., 2023; Madaan et al., 2023; Yuan et al., 2023), at iba pa (Kim et al., 2023; Wang et al., 2023). Sa partikular, si Yuan et al. (2023) bubuo ng balangkas na human-in-the-loop para sa pagkuha ng feedback sa antas ng system mula sa isang koleksyon ng feedback sa antas ng instance, na pagkatapos ay ginagamit para sa pagpino ng data. Sa aming trabaho, ginagamit ng optimizer LLM ang optimization trajectory sa prompt, na tahasang nangangailangan ng LLM na ibuod ang mga karaniwang katangian sa mga solusyon na may katulad na mga marka. Isinasaalang-alang namin ang pagsasama ng tahasang natural na feedback sa wika sa mga nabuong solusyon para sa mga susunod na hakbang sa pag-optimize bilang gawain sa hinaharap.


Pag-tune ng mga modelo ng wika para sa pag-optimize. Ang ilang mga nakaraang gawa ay nagtutugma o nag-uudyok sa mga modelo ng wika upang kumilos bilang mga operator ng mutation at crossover sa mga evolutionary algorithm. Meyerson et al. (2023) ay gumagamit ng mga modelo ng wika na may ilang-shot na mga halimbawa upang magmungkahi ng mga evolutionary cross-over sa mga gawain tulad ng pagbuo ng imahe at code. Sa Lehman et al. (2022), ang malaking modelo ng wika na sinanay sa pagbuo ng code diff ay ginagamit bilang mutation operator, at higit pa silang nagdidisenyo ng isang fine-tuning na paraan upang mapabuti ang pagganap sa Sodarace domain para sa robot simulation. Gumagamit ang EvoPrompting (Chen et al., 2023a) ng malalaking modelo ng wika para mag-evolve ng mga neural network architecture, kung saan pinagsasama nila ang evolutionary na paghahanap sa soft prompt tuning. Kaugnay ng pagkuha ng trajectory bilang input para sa pag-optimize, ang OptFormer (Chen et al., 2022) ay nagsasanay ng isang modelo ng transformer sa malalaking koleksyon ng data ng hyperparameter optimization. Sa kabilang banda, ang aming trabaho ay nagsasagawa lamang ng pag-optimize sa pamamagitan ng pag-prompt nang walang karagdagang pagsasanay.


Ang papel na ito ay makukuha sa arxiv sa ilalim ng CC0 1.0 DEED na lisensya.