paint-brush
대규모 언어 모델을 위한 효율적인 생성 안내: 토론, 참조 및 감사의 글~에 의해@textmodels
157 판독값

대규모 언어 모델을 위한 효율적인 생성 안내: 토론, 참조 및 감사의 글

너무 오래; 읽다

연구원들은 정확한 제어와 향상된 성능을 제공하는 텍스트 생성을 위한 유한 상태 기계 프레임워크를 제안합니다.
featured image - 대규모 언어 모델을 위한 효율적인 생성 안내: 토론, 참조 및 감사의 글
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

작가:

(1) Brandon T. Willard, 일반 컴퓨팅;

(2) R'emi Louf, 일반 컴퓨팅.

링크 표

5. 토론

이 문서에 소개된 어휘 색인화는 안내 생성에서 금지되는 런타임 확장 장벽을 제거합니다. 당연히 처리와 메모리 간의 균형이 이루어지지만, 우리는 메모리 비용이 평균적으로 상대적으로 낮고 그렇지 않은 경우 기존 수단을 통해 줄일 수 있다고 믿습니다.


약간 확장된 Python 문법 버전을 사용한 테스트에서 우리는 단순하게 구성된 인덱스(즉, 사용되지 않고 중복된 파서 및 FSM 상태 구성을 포함하는 인덱스)도 여전히 약 50MB에 불과하다는 것을 발견했습니다. 더욱이, 이러한 지수는 축소되지 않은 DFA로 구성되었으며, 이는 불필요하게 지수의 크기를 증가시키는 수많은 중복 상태가 있음을 의미합니다. 마찬가지로 상태 머신의 정확한 표현이 문제가 되는 경우 메모리 요구 사항이 낮은 다른 상태 머신 공식(예: NFA)으로 충분할 수도 있습니다.


이 작업의 의미는 신경 텍스트 생성에만 국한되지 않습니다. 예를 들어 구조화된 출력이 필요할 때 LLM의 교육 또는 미세 조정을 지원하기 위해 여기에 설명된 인덱싱 접근 방식을 사용할 수 있습니다. 또한 훈련 중 생성 지원을 통해 모델이 구문 세부 사항을 학습할 필요성이 줄어들 수 있다고 추측할 수 있습니다.


또한 이 방법은 현재 모델을 평가하는 대체 방법을 제공합니다. 예를 들어, 우리 방법으로 생성된 마스크된 로짓과 모델에서 생성된 원시 로짓 간의 불일치를 정량화하려고 시도할 수 있습니다. 그러면 모델의 훈련 목표를 알릴 수 있습니다.


이 접근 방식으로 계산된 마스크를 언어 모델 자체로 "리프트"하는 것도 가능할 수 있습니다. 기본적으로 마스크는 수행할 필요가 없는 계산을 암시적으로 결정합니다. 현재 공식은 가장 낮은 수준의 마스크만 적용하지만 마스크를 모델 아키텍처로 더 끌어올려 불필요하게 작업을 수행하기 전에 필요한 모델 매개변수 조각을 조절할 수 있습니다. 이는 계산 비용을 더욱 절감할 수 있는 잠재력을 가지고 있습니다.

참고자료

루카 보이러-켈너, 마크 피셔, 마틴 베체프. 프롬프트는 프로그래밍입니다. 대규모 언어 모델을 위한 쿼리 언어입니다. 프로그래밍 언어에 관한 ACM 간행물, 7(PLDI):1946-1969, 2023.


Yihong Dong, Ge Li, Zhi Jin. CODEP: 범용 코드 생성을 위한 문법적 Seq2Seq 모델. 소프트웨어 테스팅 및 분석에 관한 제32차 ACM SIGSOFT 국제 심포지엄 진행, ISSTA 2023, 페이지 188-198, 뉴욕, 뉴욕, 미국, 2023년 7월. 컴퓨팅 기계 협회. ISBN 9798400702211. doi: 10.1145/3597926. 3598048.


Saibo Geng, 마틴 조시포스키, 막심 페이라드, 로버트 웨스트. 언어 모델을 위한 유연한 문법 기반 제약 디코딩, 2023년 5월.


마이클 쿠치닉, 버지니아 스미스, 조지 암브로시아디스. relm을 사용하여 대규모 언어 모델 검증 기계 학습 및 시스템 간행물, 5, 2023.


Alexander K. Lew, Tan Zhi-Xuan, Gabriel Grand, Vikash K. Mansinghka. 확률 프로그램을 사용한 대규모 언어 모델의 순차적 몬테카를로 조정. arXiv 사전 인쇄 arXiv:2306.03081, 2023.


레미 루프(R'emi Louf)와 브랜든 T. 윌라드(Brandon T. Willard). 개요: 생성 모델 프로그래밍. URL https://github.com/normal-computing/outlines.


마이크로소프트. 안내. Microsoft, 2023년 7월. URL https://github.com/microsoft/guidance.


Gabriel Poesia, Oleksandr Polozov, Vu Le, Ashish Tiwari, Gustavo Soares, Christopher Meek 및 Sumit Gulwani. 싱크로메시(Synchromesh): 사전 훈련된 언어 모델을 통해 안정적인 코드 생성. arXiv 사전 인쇄 arXiv:2201.11227, 2022a.


Gabriel Poesia, Oleksandr Polozov, Vu Le, Ashish Tiwari, Gustavo Soares, Christopher Meek 및 Sumit Gulwani. 싱크로메시: 사전 훈련된 언어 모델을 통한 안정적인 코드 생성, 2022년 1월b.


막심 라비노비치, 미첼 스턴, 댄 클라인. 코드 생성 및 의미 분석을 위한 추상 구문 네트워크. arXiv 사전 인쇄 arXiv:1704.07535, 2017.


알렉 래드포드, 제프리 우, 리원 차일드, 데이비드 루안, 다리오 아모데이, 일리아 수츠케버. 언어 모델은 비지도 멀티태스킹 학습자입니다. OpenAI 블로그, 1(8):9, 2019.


맷 리카드. parserLLM, 2023년 7월a. URL https://github.com/r2d4/parserllm.


맷 리카드. R2d4/rellm: 모든 언어 모델 완성의 정확한 구조., 2023b. URL https://github.com/r2d4/rellm.


Torsten Scholak, Nathan Schucher, Dzmitry Bahdanau. PICARD: 언어 모델의 제한된 자동 회귀 디코딩을 위해 증분적으로 구문 분석합니다. arXiv 사전 인쇄 arXiv:2109.05093, 2021.


Rico Sennrich, Barry Haddow, Alexandra Birch. 하위 단어 단위를 사용하여 희귀 단어를 신경 기계 번역합니다. arXiv 사전 인쇄 arXiv:1508.07909, 2015.


마이클 시프서. 계산 이론 소개. 국제 톰슨 출판, 1996.


Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, \Lukasz Kaiser 및 Illia Polosukhin. 주의가 필요한 전부입니다. 신경 정보 처리 시스템의 발전, 30, 2017.


Bailin Wang, Zi Wang, Xuezhi Wang, Yuan Cao, Rif A. Saurous 및 윤김. 대규모 언어 모델을 사용한 도메인별 언어 생성을 위한 문법 프롬프트, 2023년 5월.


릴리안 웽. 제어 가능한 신경 텍스트 생성, 2021년 1월. URL https://lilianweng.github.io/posts/ 2021-01-02-controllable-text- Generation/.

감사의 말

지원과 건설적인 피드백을 주신 Dan Gerlanc와 Dan Simpson에게 감사드립니다.


이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.