저자:
(1) Mingjie Liu, NVIDIA {동등 기여};
(2) Teodor-Dumitru Ene, NVIDIA {동등 기여};
(3) Robert Kirby, NVIDIA {동등 기여};
(4) Chris Cheng, NVIDIA {동등 기여};
(5) Nathaniel Pinckney, NVIDIA {동등 기여};
(6) Rongjian Liang, NVIDIA {동등 기여};
(7) 조나 알벤(NVIDIA);
(8) 히미안슈 아난드, 엔비디아;
(9) 산미트라 바네르지(NVIDIA);
(10) 이스멧 베이락타로글루(Ismet Bayraktaroglu), NVIDIA;
(11) 보니타 바스카란(NVIDIA);
(12) 브라이언 카탄자로(NVIDIA);
(13) 아르준 차우두리(Arjun Chaudhuri), 엔비디아;
(14) 샤론 클레이, 엔비디아;
(15) 빌 댈리(Bill Dally), 엔비디아;
(16) 로라 당(NVIDIA);
(17) Parikshit Deshpande, NVIDIA;
(18) 싯단스 도디(Siddanth Dhodhi), 엔비디아;
(19) 사미르 할레페테(NVIDIA);
(20) 에릭 힐, 엔비디아;
(21) 후자상(Jiashang Hu), 엔비디아;
(22) 수미트 자인(NVIDIA);
(23) 브루섹 카일라니(NVIDIA);
(24) 조지 코카이(George Kokai), 엔비디아;
(25) 키쇼르 쿠날(Kishor Kunal), 엔비디아;
(26) 샤오웨이 리, 엔비디아;
(27) 찰리 린드, 엔비디아;
(28) 하오 리우, 엔비디아;
(29) 스튜어트 오버만(NVIDIA);
(30) 수지트 오마르(NVIDIA);
(31) 스리다르 프래티(NVIDIA);
(23) 조나단 레이먼(NVIDIA);
(33) 암바르 사르카르(Ambar Sarkar), 엔비디아;
(34) 정장샤오(Zhengjiang Shao), 엔비디아;
(35) 한페이 선(Hanfei Sun), 엔비디아;
(36) Pratik P Suthar, NVIDIA;
(37) 바룬 테지(Varun Tej), 엔비디아;
(38) 워커 터너, 엔비디아;
(39) 카이제 쉬(Kaizhe Xu), 엔비디아;
(40) 하오싱 렌(Haoxing Ren), 엔비디아.
많은 도메인에는 도메인별 LLM을 교육하는 데 사용할 수 있는 상당한 양의 독점 데이터가 있습니다. 한 가지 접근 방식은 금융의 경우 BloombergGPT [10], 생물의학의 경우 BioMedLLM [11], 과학의 경우 Galactica [38]와 같이 처음부터 도메인별 기반 모델을 교육하는 것입니다. 이러한 모델은 일반적으로 1000억 개가 넘는 원시 도메인 데이터 토큰에 대해 훈련되었습니다. 두 번째 접근 방식은 추가 원시 도메인 데이터에 대해 사전 훈련된 기초 모델을 계속 훈련하는 도메인 적응형 사전 훈련(DAPT)[14]입니다. 생물 의학, 컴퓨터 과학 출판물, 뉴스 및 리뷰와 같은 도메인의 도메인별 작업에서 약간의 성능 향상을 보여줍니다. 한 예에서 [39]는 기술 콘텐츠 데이터 세트에 대한 기초 모델을 계속해서 사전 훈련하고 많은 정량적 추론 작업에서 최고 수준의 성능을 달성했습니다.
검색 증강 생성(RAG)은 LLM이 정확한 정보를 생성하고 최신 정보를 추출하여 지식 집약적인 NLP 작업을 개선할 수 있도록 지원합니다[40]. RAG가 있는 더 작은 모델이 RAG가 없는 더 큰 모델보다 성능이 뛰어난 것으로 관찰되었습니다[41]. 검색 방법에는 단어 통계 정보를 분석하고 고차원 희소 벡터와 일치하는 문서를 찾는 TF-IDF 또는 BM25[42]와 같은 희소 검색 방법이 포함됩니다. [43] [44]와 같은 밀집 검색 방법은 검색 데이터 세트에 대한 미세 조정 여부에 관계없이 대규모 코퍼스에서 사전 훈련된 검색 모델에 의해 생성된 임베딩 공간에서 일치하는 문서를 찾습니다. 검색 모델은 독립형 [43] [44] [45] 또는 언어 모델 [46] [41]과 함께 학습될 수 있습니다. 또한, 기성 범용 검색기는 추가 미세 조정 없이 기본 언어 모델을 크게 향상시킬 수 있는 것으로 나타났습니다[47]. RAG는 또한 코딩 문서에서 검색하여 코드 생성 작업을 수행하도록 제안되었습니다[48].
기초 모델은 채팅 및 지시 따르기 기능이 제한된 완성 모델입니다. 따라서 기본 모델에 모델 정렬 프로세스를 적용하여 해당 채팅 모델을 학습합니다. 명령어 미세 조정[20]과 인간 피드백(RLHF)을 통한 강화 학습[36]은 두 가지 일반적인 모델 정렬 기술입니다. 명령어 미세 조정은 명령어 데이터 세트를 사용하여 기초 모델을 추가로 교육합니다. RLHF는 인간의 피드백을 활용하여 데이터 세트에 레이블을 지정하고 보상 모델을 훈련하며 강화 학습을 적용하여 훈련된 보상 모델을 바탕으로 모델을 더욱 개선합니다. RLHF는 일반적으로 명령 미세 조정보다 더 복잡하고 리소스가 부족합니다. 따라서 최근 연구에서는 DPO[49] 및 SteerLM[50]과 같은 보다 간단한 방법으로 이러한 오버헤드를 줄이는 것을 제안합니다.
연구자들은 칩 설계 문제에 LLM을 적용하기 시작했습니다. Dave[51]와 같은 초기 연구에서는 언어 모델(GPT-2)을 사용하여 영어에서 Verilog를 생성하는 가능성을 처음으로 탐색했습니다. 해당 작업에 이어 [6]은 GitHub 및 Verilog 교과서에서 수집한 Verilog 데이터 세트의 미세 조정된 오픈 소스 LLM(CodeGen)이 Verilog 질문 17개에서 code-davinci-002와 같은 최첨단 OpenAI 모델보다 성능이 우수하다는 것을 보여주었습니다. [12]는 150개 이상의 문제가 있는 벤치마크를 제안하고 사전 학습된 언어 모델의 Verilog 코드 생성 기능이 LLM 생성 합성 문제 코드 쌍을 사용한 부트스트래핑을 통한 감독 미세 조정을 통해 향상될 수 있음을 보여주었습니다. Chip-Chat [7]은 GPT-4 및 GPT-3.5를 갖춘 8비트 누산기 기반 마이크로프로세서를 설계하고 검증하기 위해 대화 흐름을 실험했습니다. 연구 결과에 따르면 GPT-4는 상대적으로 고품질 코드를 생성했지만 오류를 이해하고 수정하는 데는 여전히 충분한 성능을 발휘하지 못하는 것으로 나타났습니다. ChipEDA[8]는 LLM을 사용하여 EDA 도구 스크립트를 생성하도록 제안했습니다. 또한 미세 조정된 LLaMA2 70B 모델이 이 작업에서 GPT-4 모델보다 성능이 우수하다는 것을 입증했습니다.
이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.