paint-brush
ChipNeMo: チップ設計のためのドメイン適応型 LLM: 謝辞、貢献、参考文献@textmodels

ChipNeMo: チップ設計のためのドメイン適応型 LLM: 謝辞、貢献、参考文献

長すぎる; 読むには

研究者らは、ドメイン適応を使用してチップ設計用の LLM を強化し、モデル サイズを最大 5 倍削減し、パフォーマンスを向上させる ChipNeMo を発表しました。
featured image - ChipNeMo: チップ設計のためのドメイン適応型 LLM: 謝辞、貢献、参考文献
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

著者:

(1)Mingjie Liu、NVIDIA {同等の貢献}

(2)Teodor-Dumitru Ene、NVIDIA {同等の貢献}

(3)ロバート・カービー、NVIDIA {同等の貢献}

(4)クリス・チェン、NVIDIA {同等の貢献}

(5)ナサニエル・ピンクニー、NVIDIA {平等な貢献}

(6)Rongjian Liang、NVIDIA {同等の貢献}

(7)ジョナ・アルベン、NVIDIA

(8)ヒムヤンシュ・アナンド、NVIDIA

(9)サンミトラ・バナージー、NVIDIA

(10)イスメット・バイラクタログル、NVIDIA

(11)ボニータ・バスカラン、NVIDIA

(12)ブライアン・カタンツァーロ、NVIDIA

(13)アルジュン・チャウドゥリ、NVIDIA

(14)シャロン・クレイ、NVIDIA

(15)ビル・ダリー、NVIDIA

(16)ローラ・ダン、NVIDIA

(17)パリクシット・デシュパンデ、NVIDIA

(18)シッダーント・ドーディ、NVIDIA

(19)サミール・ハレペテ、NVIDIA

(20)エリック・ヒル、NVIDIA

(21)Jiashang Hu、NVIDIA;

(22)スミット・ジェイン、NVIDIA

(23)ブルーチェク・カイラニー、NVIDIA

(24)ジョージ・コーカイ、NVIDIA

(25)キショール・クナル、NVIDIA

(26)シャオウェイ・リー、NVIDIA

(27)チャーリー・リンド、NVIDIA

(28)ハオ・リウ、NVIDIA

(29)スチュアート・オーバーマン、NVIDIA

(30)NVIDIAのスジート・オマール氏

(31)スリードハール・プラティ、NVIDIA

(23)ジョナサン・ライマン、NVIDIA

(33)アンバー・サルカー、NVIDIA

(34)NVIDIAの邵正江氏

(35)ハンフェイ・サン、NVIDIA

(36) Pratik P Suthar、NVIDIA;

(37)ヴァルン・テジ、NVIDIA

(38)ウォーカー・ターナー、NVIDIA

(39)Kaizhe Xu、NVIDIA;

(40)レン・ハオシン、NVIDIA。

リンク一覧

IX. 謝辞

著者は、NVBugs 統合に関するサポートをいただいた NVIDIA IT チーム、セキュリティ問題に関するサポートをいただいた NVIDIA ハードウェア セキュリティ チーム、ChipNeMo モデルのトレーニングと推論に関するサポートと指導をいただいた NVIDIA NeMo チーム、プロジェクトの GPU トレーニングおよび推論リソースをサポートしてくれた NVIDIA インフラストラクチャ チーム、サポートと洞察をいただいた NVIDIA ハードウェア設計チームに感謝の意を表します。

X. 寄付

Mingjie Liu 氏はDAPT および SFT モデルのトレーニングを実施しました。


Teodor-Dumitru Ene と Robert Kirby は推論およびアプリケーション評価インフラストラクチャを開発しました。


Chris Cheng がRAG フレームワークを開発しました。


Nathaniel Pinckney はトレーニング用のデータセットを収集し、準備しました。


Rongjian Liang はカスタム トークナイザーを開発しました。


Walker Turner、Charley Lind、George Kokai は、一般的な回路設計知識ベンチマークを開発しました。


Siddhanth Dhodhi、Ismet Bayraktaroglu、Himyanshu Anand、Eric Hill は、エンジニアリング アシスタント チャットボットを設計し、ドメイン指示データセットと評価ベンチマークを提供し、評価を実施しました。


Parikshit Deshpande、Zhengjiang Shao、Kaizhe Xu、Jiashang Hu、Laura Dang、Xiaowei Li、Hao Liu、Ambar Sarkar は、エンジニアリング アシスタント チャットボット アプリケーションを開発しました。


Sreedhar Pratty、Kishor Kunal、Varun Tej、Sumit Jain、Sujeet Omar、Pratik P Suthar、Hanfei Sun は、 EDA スクリプト生成アプリケーションを開発し、ドメイン指示データセットと評価ベンチマークを提供しました。


Bonita Bhaskaran、Arjun Chaudhuri、Sanmitra Banerjee は、バグ要約および分析アプリケーションを開発し、ドメイン指示データセットと評価ベンチマークを提供しました。


Brucek Khailany、Stuart Oberman、Sharon Clay、Sameer Halepete、Jonathan Raiman、Bryan Catanzaro、Jonah Alben、Bill Dally がAI 研究とハードウェア エンジニアリングの観点からアドバイスを提供しました。


Haoxing Ren 氏がこの研究を設計し、主導しました。

参考文献

[1] B. Khailany他「機械学習によるチップ設計の加速」IEEE Micro、vol.40、no.6、pp.23-32、2020年。

[2] H. RenとM. Fojtik、「招待講演- nvcell:強化学習による先進技術ノードの標準セルレイアウト」、2021年第58回ACM/IEEE設計自動化会議(DAC)、2021年。


[3] R. Roy他、「PrefixRL: 深層強化学習を用いた並列プレフィックス回路の最適化」、2021年第58回ACM/IEEE設計自動化会議(DAC)、2021年。


[4] W.-L. Chiang他「Vicuna: 90%*のチャットGPT品質でGPT-4を圧倒するオープンソースチャットボット」2023年3月。[オンライン]。https://lmsys.org/blog/2023-03-30-vicuna/で入手可能


[5] H. Touvron他「Llama 2:オープンな基盤と微調整されたチャットモデル」、2023年。


[6] S. Thakur他、「自動Verilog RTLコード生成のための大規模言語モデルのベンチマーク」、2023 Design, Automation & Test in Europe Conference & Exhibition (DATE)、2023年、1~6頁。


[7] J.ブロックラブ他「チップチャット:会話型ハードウェア設計における課題と機会」、2023年。


[8] Z. He他「Chateda:大規模言語モデルを搭載したeda向け自律エージェント」、2023年。


[9] S. Bubeck他「人工汎用知能の火花:gpt-4の初期実験」、2023年。


[10] S. Wu他「Bloomberggpt:金融のための大規模言語モデル」、2023年。


[11] M. LLC. (2022) Biomedlm: 生物医学テキストのためのドメイン固有の大規模言語モデル。[オンライン]。入手可能: https://www.mosaicml.com/blog/introducing-pubmed-gpt


[12] M. Liu他「VerilogEval: Verilogコード生成のための大規模言語モデルの評価」、2023 IEEE/ACM国際コンピュータ支援設計会議(ICCAD)、2023年。


[13] E. Nijkamp他「Codegen:マルチターンプログラム合成のためのオープン大規模言語モデル」ICLR、2023年。


[14] S. Gururangan他「事前トレーニングをやめないで:言語モデルをドメインとタスクに適応させる」2020年。


[15] P. Lewis他「知識集約型NLPタスクのための検索強化生成」、2021年。


[16] EJ Hu et al., “Lora: 大規模言語モデルの低ランク適応,” CoRR, vol. abs/2106.09685, 2021. [オンライン]. 入手可能: https://arxiv.org/abs/2106.09685


[17] L. Gao et al.、「The pyri:言語モデリングのための多様なテキストの800GBのデータセット」


[18] D. Kocetkov他「スタック:3テラバイトの許容ライセンスのソースコード」、2022年。


[19] A. Kopf¨他「Openassistant会話-大規模言語モデルのアライメントの民主化」、2023年。


[20] J. Wei他「微調整された言語モデルはゼロショット学習者である」2022年。


[21] V. Sanhら、「マルチタスクプロンプトトレーニングによりゼロショットタスクの一般化が可能になる」、2022年。


[22] D. Hendrycks他「大規模マルチタスク言語理解の測定」2021年。


[23] M. Chen他「コード上で訓練された大規模言語モデルの評価」、2021年。


[24] F. Koto、JH Lau、T. Baldwin、「IndoBERTweet:効果的なドメイン固有の語彙初期化を備えたインドネシア語Twitter用の事前学習済み言語モデル」、2021年自然言語処理の経験的手法に関する会議の議事録、2021年11月、pp. 10 660-10 668。


[25] O. Kuchaiev他「Nemo:ニューラルモジュールを使用してAIアプリケーションを構築するためのツールキット」、2019年。


[26] M. Shoeybi他、「Megatron-lm:モデル並列処理を用いた数十億パラメータの言語モデルのトレーニング」arXivプレプリントarXiv:1909.08053、2019年。


[27] T. Dao他「FlashAttention: IO認識による高速かつメモリ効率の高い正確な注意」『Advances in Neural Information Processing Systems』2022年。[28] A. Chowdhery他「Palm: 経路による言語モデルのスケーリング」2022年。


[29] Z. Ji et al.、「自然言語生成における幻覚の調査」、ACM Comput. Surv.、vol. 55、no. 12、2023年3月。[オンライン]。入手可能:https://doi.org/10.1145/3571730


[30] L. Wang et al.、「弱教師付き対照事前トレーニングによるテキスト埋め込み」arXivプレプリントarXiv:2212.03533、2022年。


[31] L. Gao et al.、「Tevatron:高密度検索のための効率的で柔軟なツールキット」、2022年。


[32] B. Roziere ` et al.、「コードラマ:コードのためのオープン基盤モデル」、2023年。


[33] N. ReimersとI. Gurevych、「Sentence-bert:siamese bertネットワークを使用した文の埋め込み」、2019年自然言語処理における経験的手法に関する会議の議事録。計算言語学協会、2019年11月。[オンライン]。入手可能:http://arxiv.org/abs/1908.10084


[34] R. Pope他、「トランスフォーマー推論の効率的なスケーリング」、2022年。


[35] RY Aminabadi他、「Deepspeed推論:前例のない規模でのトランスフォーマーモデルの効率的な推論を可能にする」、2022年。


[36] L. Ouyang他「人間のフィードバックによる指示に従う言語モデルのトレーニング」2022年。


[37] W. Xiongら、「基礎モデルの効果的な長期コンテキストスケーリング」、2023年。


[38] R.テイラー他「ギャラクティカ:科学のための大規模言語モデル」2022年。


[39] A. Lewkowycz他「言語モデルによる定量的推論問題の解決」2022年。


[40] P. Lewis他「知識集約型NLPタスクのための検索強化生成」、2021年。


[41] S. Borgeaudら、「数兆個のトークンから取得することで言語モデルを改善する」、2022年。


[42] S. Robertson および H. Zaragoza、「確率的関連性フレームワーク: Bm25 以降」、Found. Trends Inf. Retr.、vol. 3、no. 4、p. 333–389、2009 年 4 月。[オンライン]。https://doi.org/10.1561/1500000019 から入手可能


[43] V. Karpukhin他「オープンドメインの質問応答のための高密度パッセージ検索」、2020年。


[44] G. Izacard他「対照学習による教師なし高密度情報検索」、2022年。


[45] W. Shi他「Replug: 検索強化型ブラックボックス言語モデル」、2023年。


[46] G. Izacard他「検索拡張言語モデルによる少量学習」2022年。[オンライン]。入手可能:http://arxiv.org/abs/2208.03299


[47] O. Ram他「文脈内検索強化言語モデル」2023年。


[48] S. Zhou他「Docprompting:ドキュメントを取得してコードを生成する」、2023年。


[49] R. Rafailovら、「直接的な選好最適化:あなたの言語モデルは実は報酬モデルである」、2023年。


[50] Y. Dongら、「Steerlm:属性条件付きSFTによるRLHFの(ユーザーによる操作が可能な)代替」、2023年。


[51] H. Pearce、B. Tan、R. Karri、「Dave:英語からVerilogを自動的に導出する」、2020 ACM/IEEE CAD向け機械学習ワークショップの議事録、ser. MLCAD '20。ニューヨーク、ニューヨーク州、米国:Association for Computing Machinery、2020年、p. 27–32。[オンライン]。入手可能:https://doi.org/10.1145/3380446.3430634


[52] 「Beautiful Soup」、https://www.crummy.com/software/BeautifulSoup/、アクセス日:2023年10月10日。


[53] K. Sakaguchi他、「Winogrande:大規模な敵対的winogradスキーマチャレンジ」arXivプレプリントarXiv:1907.10641、2019年。


[54] R. Zellers他「Hellaswag:機械は本当にあなたの文章を完成させることができるのか?」第57回計算言語学会年次会議論文集、2019年。


[55] P.クラーク他「質問応答を解決したと思いますか?arc、ai2推論チャレンジに挑戦してください」2018年。


[56] G. Lai他「人種:試験からの大規模読解データセット」2017年。



この論文はCC 4.0ライセンスの下でarxivで公開されています