paint-brush
ChipNeMo: 칩 설계를 위한 도메인 적응 LLM: 감사의 글, 기여 및 참고 자료~에 의해@textmodels

ChipNeMo: 칩 설계를 위한 도메인 적응 LLM: 감사의 글, 기여 및 참고 자료

너무 오래; 읽다

연구원들은 도메인 적응을 사용하여 칩 설계를 위한 LLM을 향상시켜 더 나은 성능으로 모델 크기를 최대 5배까지 줄이는 ChipNeMo를 선보입니다.
featured image - ChipNeMo: 칩 설계를 위한 도메인 적응 LLM: 감사의 글, 기여 및 참고 자료
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

저자:

(1) Mingjie Liu, NVIDIA {동등 기여};

(2) Teodor-Dumitru Ene, NVIDIA {동등 기여};

(3) Robert Kirby, NVIDIA {동등 기여};

(4) Chris Cheng, NVIDIA {동등 기여};

(5) Nathaniel Pinckney, NVIDIA {동등 기여};

(6) Rongjian Liang, NVIDIA {동등 기여};

(7) 조나 알벤(NVIDIA);

(8) 히미안슈 아난드, 엔비디아;

(9) 산미트라 바네르지(NVIDIA);

(10) 이스멧 베이락타로글루(Ismet Bayraktaroglu), NVIDIA;

(11) 보니타 바스카란(NVIDIA);

(12) 브라이언 카탄자로(NVIDIA);

(13) 아르준 차우두리(Arjun Chaudhuri), 엔비디아;

(14) 샤론 클레이, 엔비디아;

(15) 빌 댈리(Bill Dally), 엔비디아;

(16) 로라 당(NVIDIA);

(17) Parikshit Deshpande, NVIDIA;

(18) 싯단스 도디(Siddanth Dhodhi), 엔비디아;

(19) 사미르 할레페테(NVIDIA);

(20) 에릭 힐, 엔비디아;

(21) 후자상(Jiashang Hu), 엔비디아;

(22) 수미트 자인(NVIDIA);

(23) 브루섹 카일라니(NVIDIA);

(24) 조지 코카이(George Kokai), 엔비디아;

(25) 키쇼르 쿠날(Kishor Kunal), 엔비디아;

(26) 샤오웨이 리, 엔비디아;

(27) 찰리 린드, 엔비디아;

(28) 하오 리우, 엔비디아;

(29) 스튜어트 오버만(NVIDIA);

(30) 수지트 오마르(NVIDIA);

(31) 스리다르 프래티(NVIDIA);

(23) 조나단 레이먼(NVIDIA);

(33) 암바르 사르카르(Ambar Sarkar), 엔비디아;

(34) 정장샤오(Zhengjiang Shao), 엔비디아;

(35) 선한페이(Hanfei Sun), 엔비디아;

(36) Pratik P Suthar, NVIDIA;

(37) 바룬 테지(Varun Tej), 엔비디아;

(38) 워커 터너, 엔비디아;

(39) 카이제 쉬(Kaizhe Xu), 엔비디아;

(40) 하오싱 렌(Haoxing Ren), 엔비디아.

링크 표

Ⅸ. 감사의 말

저자는 다음에게 감사의 말씀을 전합니다: NVBugs 통합에 대한 지원을 주신 NVIDIA IT 팀; 보안 문제에 대한 지원을 위한 NVIDIA 하드웨어 보안 팀 ChipNeMo 모델의 훈련 및 추론에 대한 지원과 지침을 제공하는 NVIDIA NeMo 팀 프로젝트를 위한 GPU 교육 및 추론 리소스를 지원하는 NVIDIA 인프라 팀 NVIDIA 하드웨어 설계 팀의 지원과 통찰력.

X. 기여

Mingjie Liu는 DAPT 및 SFT 모델 교육을 실시했습니다.


Teodor-Dumitru Ene, Robert Kirby는 추론 및 애플리케이션 평가 인프라를 개발했습니다.


Chris Cheng은 RAG 프레임워크를 개발했습니다.


Nathaniel Pinckney는 교육용 데이터 세트를 수집하고 준비했습니다.


Rongjian Liang은 맞춤형 토크나이저를 개발했습니다.


Walker Turner, Charley Lind, George Kokai가 일반 회로 설계 지식 벤치마크를 개발했습니다.


Siddhanth Dhodhi, Ismet Bayraktaroglu, Himyanshu Anand, Eric Hill은 엔지니어링 보조 챗봇을 설계하고 도메인 지침 데이터 세트, 평가 벤치마크를 제공하고 평가를 수행했습니다.


Parikshit Deshpande, Zhengjiang Shao, Kaizhe Xu, Jiashang Hu, Laura Dang, Xiaowei Li, Hao Liu, Ambar Sarkar는 엔지니어링 보조 챗봇 애플리케이션을 개발했습니다.


Sreedhar Pratty, Kishor Kunal, Varun Tej, Sumit Jain, Sujeet Omar, Pratik P Suthar, Hanfei Sun은 EDA 스크립트 생성 애플리케이션을 개발하고 도메인 명령 데이터 세트 및 평가 벤치마크를 제공했습니다.


Bonita Bhaskaran, Arjun Chaudhuri, Sanmitra Banerjee는 버그 요약 및 분석 애플리케이션을 개발하고 도메인 명령 데이터 세트 및 평가 벤치마크를 제공했습니다.


Brucek Khailany, Stuart Oberman, Sharon Clay, Sameer Halepete, Jonathan Raiman, Bryan Catanzaro, Jonah Alben, Bill Dally는 AI 연구 및 하드웨어 엔지니어링 관점에서 조언을 제공했습니다.


Haoxing Ren이 연구를 설계하고 이끌었습니다.

참고자료

[1] B. Khailany 외, "머신러닝을 통한 칩 설계 가속화", IEEE Micro, vol. 40, 아니. 6, 23~32페이지, 2020.

[2] H. Ren 및 M. Fojtik, "초대-nvcell: 강화 학습을 사용한 고급 기술 노드의 표준 셀 레이아웃", 2021년 제58회 ACM/IEEE 설계 자동화 컨퍼런스(DAC), 2021.


[3] R. Roy 외, "PrefixRL: 심층 강화 학습을 사용한 병렬 접두사 회로 최적화", 2021년 제58회 ACM/IEEE 설계 자동화 컨퍼런스(DAC), 2021.


[4] W.-L. Chiang 외, "Vicuna: 90%* chatgpt 품질로 gpt-4를 감동시키는 오픈 소스 챗봇", 2023년 3월. [온라인]. 이용 가능: https://lmsys.org/blog/2023-03-30-vicuna/


[5] H. Touvron 외, "Llama 2: 개방형 기반 및 미세 조정된 채팅 모델", 2023년.


[6] S. Thakur 외, "자동화된 Verilog rtl 코드 생성을 위한 대규모 언어 모델 벤치마킹", 2023년 유럽 컨퍼런스 및 전시회(DATE)의 설계, 자동화 및 테스트, 2023년, 1~6페이지.


[7] J. Blocklove 외, "칩챗: 대화형 하드웨어 설계의 과제와 기회", 2023년.


[8] Z. He 외, "Chateda: Eda를 위한 대규모 언어 모델 기반 자율 에이전트", 2023.


[9] S. Bubeck 외, "일반 인공 지능의 불꽃: gpt-4를 사용한 초기 실험", 2023년.


[10] S. Wu 외, "Bloombergpt: 금융을 위한 대규모 언어 모델", 2023년.


[11] M. LLC. (2022) Biomedlm: 생물 의학 텍스트를 위한 도메인별 대형 언어 모델입니다. [온라인]. 사용 가능: https://www.mosaicml.com/blog/introducing-pubmed-gpt


[12] M. Liu 외, "VerilogEval: Verilog 코드 생성을 위한 대규모 언어 모델 평가", 2023년 ICCAD(IEEE/ACM International Conference on Computer-Aided Design), 2023.


[13] E. Nijkamp 외, "Codegen: 다중 턴 프로그램 합성을 갖춘 코드를 위한 개방형 대규모 언어 모델", ICLR, 2023.


[14] S. Gururangan 외, "사전 학습을 중단하지 마십시오: 언어 모델을 도메인 및 작업에 맞게 조정", 2020년.


[15] P. Lewis et al., "지식 집약적 nlp 작업을 위한 검색 증강 생성", 2021.


[16] EJ Hu 외, "Lora: 대규모 언어 모델의 하위 순위 적응", CoRR, vol. ABS/2106.09685, 2021. [온라인]. 이용 가능: https://arxiv.org/abs/2106.09685


[17] L. Gao 외, "더미: 언어 모델링을 위한 다양한 텍스트로 구성된 800GB 데이터 세트."


[18] D. Kocetkov 외, “스택: 허용 라이선스 소스 코드 3TB,” 2022.


[19] A. Kopf ¨ et al., "개방형 보조 대화 - 대규모 언어 모델 정렬 민주화", 2023.


[20] J. Wei 외, "미세 조정된 언어 모델은 제로샷 학습자입니다.", 2022.


[21] V. Sanh 외, "멀티태스크 프롬프트 교육을 통해 제로샷 작업 일반화 가능", 2022년.


[22] D. Hendrycks et al., "대량 멀티태스킹 언어 이해 측정", 2021.


[23] M. Chen 외, “코드에 대해 훈련된 대규모 언어 모델 평가”, 2021.


[24] F. Koto, JH Lau 및 T. Baldwin, "IndoBERTweet: 효과적인 도메인별 어휘 초기화를 갖춘 인도네시아어 트위터를 위한 사전 훈련된 언어 모델", 2021년 자연어 처리의 경험적 방법 컨퍼런스 회보, 11월 2021년, 10 660–10 668페이지.


[25] O. Kuchaiev 외, "Nemo: 신경 모듈을 사용하여 AI 애플리케이션을 구축하기 위한 툴킷", 2019.


[26] M. Shoeybi 외, "Megatron-lm: 모델 병렬성을 사용하여 수십억 매개변수 언어 모델 훈련", arXiv 사전 인쇄 arXiv:1909.08053, 2019.


[27] T. Dao 외, "FlashAttention: IO 인식을 통한 빠르고 메모리 효율적인 정확한 주의", 신경 정보 처리 시스템의 발전, 2022. [28] A. Chowdhery 외, "Palm: 스케일링 경로를 통한 언어 모델링,” 2022.


[29] Z. Ji 외, "자연어 생성의 환각 조사", ACM Comput. Surv., vol. 55, 아니. 2023년 3월 12일. [온라인]. 이용 가능 : https://doi.org/10.1145/3571730


[30] L. Wang 외, "약하게 감독된 대조 사전 훈련에 의한 텍스트 임베딩", arXiv 사전 인쇄 arXiv:2212.03533, 2022.


[31] L. Gao 외, "Tevatron: 조밀한 검색을 위한 효율적이고 유연한 툴킷", 2022년.


[32] B. Roziere` 외, "코드 라마: 코드를 위한 개방형 기반 모델", 2023.


[33] N. Reimers 및 I. Gurevych, "Sentence-bert: siamese bert-networks를 사용한 문장 임베딩", 2019년 자연어 처리의 경험적 방법 컨퍼런스 회의록. 전산언어학협회, 2019년 11월. [온라인]. 이용 가능: http://arxiv.org/abs/1908.10084


[34] R. Pope 외, "변압기 추론을 효율적으로 확장", 2022.


[35] RY Aminabadi 외, "심층 추론: 전례 없는 규모로 변압기 모델의 효율적인 추론 지원", 2022년.


[36] L. Ouyang 외, “인간 피드백을 통해 지침을 따르도록 언어 모델 교육”, 2022.


[37] W. Xiong 외, "기초 모델의 효과적인 장기 컨텍스트 확장", 2023.


[38] R. Taylor 외, “갤럭티카: 과학을 위한 대규모 언어 모델”, 2022년.


[39] A. Lewkowycz 외, "언어 모델을 사용하여 정량적 추론 문제 해결", 2022년.


[40] P. Lewis et al., "지식 집약적 nlp 작업을 위한 검색 증강 생성", 2021.


[41] S. Borgeaud 외, "수조 개의 토큰을 검색하여 언어 모델 개선", 2022년.


[42] S. Robertson 및 H. Zaragoza, "확률적 관련성 프레임워크: Bm25 이상", 발견. 동향 정보 Retr., vol. 3, 아니. 4, p. 333–389, 2009년 4월. [온라인]. 이용 가능 : https://doi.org/10.1561/1500000019


[43] V. Karpukhin 외, "오픈 도메인 질문 답변을 위한 밀집된 구절 검색", 2020.


[44] G. Izacard 외, "대조 학습을 통한 비지도 밀집 정보 검색", 2022년.


[45] W. Shi 외, "리플러그: 검색 강화 블랙박스 언어 모델", 2023.


[46] G. Izacard 외, “검색 증강 언어 모델을 사용한 Few-shot 학습”, 2022. [온라인]. 이용 가능: http://arxiv.org/abs/2208.03299


[47] O. Ram 외, "상황 내 검색 강화 언어 모델", 2023.


[48] S. Zhou 외, "Docprompting: 문서를 검색하여 코드 생성", 2023.


[49] R. Rafailov 외, "직접 선호도 최적화: 언어 모델은 비밀리에 보상 모델입니다.", 2023.


[50] Y. Dong 외, "Steerlm: rlhf에 대한 (사용자가 조종할 수 있는) 대안으로서 속성 조건 sft", 2023.


[51] H. Pearce, B. Tan 및 R. Karri, "Dave: 영어에서 자동으로 Verilog 파생", CAD용 기계 학습에 관한 2020 ACM/IEEE 워크숍 진행, ser. MLCAD '20. 뉴욕, 뉴욕, 미국: 컴퓨팅 기계 협회, 2020, p. 27-32. [온라인]. 이용 가능 : https://doi.org/10.1145/3380446.3430634


[52] "Beautiful Soup", https://www.crummy.com/software/BeautifulSoup/, 액세스일: 2023년 10월 10일.


[53] K. Sakaguchi et al., "Winogrande: 규모에 따른 적대적인 winograd 스키마 도전", arXiv 사전 인쇄 arXiv:1907.10641, 2019.


[54] R. Zellers et al., "Hellaswag: 기계가 정말로 문장을 끝낼 수 있습니까?" 2019년 전산언어학회 제57차 연차총회 회의록.


[55] P. Clark 외, “질문 답변을 해결했다고 생각하십니까? ai2 추론 챌린지인 arc를 사용해 보세요.” 2018.


[56] G. Lai 외, “인종: 시험을 통한 대규모 독해 데이터세트”, 2017.



이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.