paint-brush
ChipNeMo: LLM adaptados al dominio para diseño de chips: resumen e introducciónpor@textmodels
177 lecturas

ChipNeMo: LLM adaptados al dominio para diseño de chips: resumen e introducción

Demasiado Largo; Para Leer

Los investigadores presentan ChipNeMo, que utiliza la adaptación de dominio para mejorar los LLM para el diseño de chips, logrando una reducción del tamaño del modelo de hasta cinco veces con un mejor rendimiento.
featured image - ChipNeMo: LLM adaptados al dominio para diseño de chips: resumen e introducción
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Autores:

(1) Mingjie Liu, NVIDIA {Contribución igual};

(2) Teodor-Dumitru Ene, NVIDIA {Contribución igual};

(3) Robert Kirby, NVIDIA {Contribución igual};

(4) Chris Cheng, NVIDIA {Contribución igual};

(5) Nathaniel Pinckney, NVIDIA {Contribución igual};

(6) Rongjian Liang, NVIDIA {Contribución igual};

(7) Jonás Alben, NVIDIA;

(8) Himyanshu Anand, NVIDIA;

(9) Sanmitra Banerjee, NVIDIA;

(10) Ismet Bayraktaroglu, NVIDIA;

(11) Bonita Bhaskaran, NVIDIA;

(12) Bryan Catanzaro, NVIDIA;

(13) Arjun Chaudhuri, NVIDIA;

(14) Sharon Clay, NVIDIA;

(15) Bill Dally, NVIDIA;

(16) Laura Dang, NVIDIA;

(17) Parikshit Deshpande, NVIDIA;

(18) Siddhanth Dhodhi, NVIDIA;

(19) Sameer Halepete, NVIDIA;

(20) Eric Hill, NVIDIA;

(21) Jiashang Hu, NVIDIA;

(22) Sumit Jain, NVIDIA;

(23) Brucek Khailany, NVIDIA;

(24) George Kokai, NVIDIA;

(25) Kishor Kunal, NVIDIA;

(26) Xiaowei Li, NVIDIA;

(27) Charley Lind, NVIDIA;

(28) Hao Liu, NVIDIA;

(29) Stuart Oberman, NVIDIA;

(30) Sujeet Omar, NVIDIA;

(31) Sreedhar Pratty, NVIDIA;

(23) Jonathan Raiman, NVIDIA;

(33) Ambar Sarkar, NVIDIA;

(34) Zhengjiang Shao, NVIDIA;

(35) Hanfei Sun, NVIDIA;

(36) Pratik P. Suthar, NVIDIA;

(37) Varun Tej, NVIDIA;

(38) Walker Turner, NVIDIA;

(39) Kaizhe Xu, NVIDIA;

(40) Haoxing Ren, NVIDIA.

Tabla de enlaces


Abstracto

ChipNeMo tiene como objetivo explorar las aplicaciones de modelos de lenguaje grande (LLM) para el diseño de chips industriales. En lugar de implementar directamente LLM comerciales o de código abierto disponibles en el mercado, adoptamos las siguientes técnicas de adaptación de dominio: tokenizadores personalizados, capacitación previa continua adaptable al dominio, ajuste fino supervisado (SFT) con instrucciones específicas del dominio y Modelos de recuperación adaptados. Evaluamos estos métodos en tres aplicaciones LLM seleccionadas para el diseño de chips: un chatbot asistente de ingeniería, generación de scripts EDA y resumen y análisis de errores. Nuestros resultados muestran que estas técnicas de adaptación de dominio permiten mejoras significativas en el rendimiento de LLM con respecto a los modelos base de uso general en las tres aplicaciones evaluadas, lo que permite una reducción del tamaño del modelo de hasta 5 veces con un rendimiento similar o mejor en una variedad de tareas de diseño. Nuestros hallazgos también indican que todavía hay margen de mejora entre nuestros resultados actuales y los resultados ideales. Creemos que una mayor investigación de enfoques LLM adaptados al dominio ayudará a cerrar esta brecha en el futuro.

I. INTRODUCCIÓN

Durante las últimas décadas, los algoritmos y herramientas de automatización de diseño electrónico (EDA) han proporcionado enormes ganancias en la productividad del diseño de chips. Junto con los aumentos exponenciales en las densidades de transistores proporcionados por la ley de Moore, EDA ha permitido el desarrollo de diseños de SoC complejos y ricos en funciones con miles de millones de transistores. Más recientemente, los investigadores han estado explorando formas de aplicar la IA a los algoritmos EDA y al proceso de diseño de chips para mejorar aún más la productividad del diseño de chips [1] [2] [3]. Sin embargo, muchas tareas de diseño de chips que requieren mucho tiempo y que implican la interfaz con lenguajes naturales o lenguajes de programación aún no se han automatizado. Los últimos avances en modelos de lenguajes grandes (LLM) comerciales (ChatGPT, Bard, etc.) y de código abierto (Vicuña [4], LLaMA2 [5], etc.) brindan una oportunidad sin precedentes para ayudar a automatizar estas tareas de diseño de chips relacionadas con el lenguaje. De hecho, las primeras investigaciones académicas [6] [7] [8] han explorado aplicaciones de LLM para generar RTL que pueden realizar tareas simples en pequeños módulos de diseño, así como generar scripts para herramientas EDA.


Creemos que los LLM tienen el potencial de ayudar a la productividad del diseño de chips mediante el uso de IA generativa para automatizar muchas tareas de diseño de chips relacionadas con el lenguaje, como la generación de código, respuestas a preguntas de ingeniería a través de una interfaz de lenguaje natural, análisis §Contribución equitativa y generación de informes, y clasificación de errores. . En este estudio, nos centramos en estas tres aplicaciones LLM específicas: un chatbot asistente de ingeniería para ingenieros de diseño de arquitectura y ASIC de GPU, que comprende los diseños de HW internos y es capaz de explicar temas de diseño complejos; Generación de scripts EDA para dos herramientas específicas de dominio basadas en Python y Tcl para tareas de análisis de tiempos VLSI especificadas en inglés; resumen y análisis de errores como parte de un sistema interno de seguimiento de errores y problemas.


Aunque los LLM de propósito general capacitados con grandes cantidades de datos de Internet exhiben capacidades notables en tareas de IA generativa en diversos dominios (como lo demuestran Bubeck et al. en [9]), trabajos recientes como BloombergGPT [10] y BioMedLLM [11] demuestran que los modelos LLM de dominio específico pueden superar a un modelo de propósito general en tareas específicas de dominio. En el ámbito del diseño de hardware, [6] [12] demostró que los LLM de código abierto (CodeGen [13]) ajustados con datos adicionales de Verilog pueden superar a los modelos OpenAI de última generación. Personalizar los LLM de esta manera también evita los riesgos de seguridad asociados con el envío de datos de diseño de chips propietarios a LLM de terceros a través de API. Sin embargo, sería prohibitivamente costoso entrenar modelos específicos de dominio para cada dominio desde cero, ya que esto a menudo requiere millones de horas de entrenamiento de GPU. Para entrenar de manera rentable modelos específicos de dominio, proponemos combinar las siguientes técnicas: Entrenamiento previo adaptable al dominio (DAPT) [14] de modelos básicos con tokenizadores adaptados al dominio, alineación de modelos utilizando instrucciones generales y específicas del dominio, y recuperación. generación aumentada (RAG) [15] con un modelo de recuperación adaptado al dominio entrenado.


Como se muestra en la Figura 1, nuestro enfoque es comenzar con un modelo fundamental básico y aplicar DAPT seguido de un ajuste fino supervisado (SFT). Se ha demostrado que DAPT, también conocido como entrenamiento previo continuo con datos en el dominio, es eficaz en áreas como publicaciones, noticias y reseñas biomédicas y de informática. En nuestro caso, construimos nuestro conjunto de datos de preentrenamiento específico de dominio a partir de una colección de código propietario relacionado con el hardware (por ejemplo, software, RTL, bancos de pruebas de verificación, etc.) y conjuntos de datos en lenguaje natural (por ejemplo, especificaciones de hardware, documentación, etc.). Limpiamos y preprocesamos el conjunto de datos sin procesar, luego continuamos preentrenando un modelo básico con los datos específicos del dominio. Al modelo resultante lo llamamos ChipNeMo.


Fig. 1: Flujo de entrenamiento de ChipNeMo


Modelo de Fundación. DAPT se realiza con una fracción de los tokens utilizados en el entrenamiento previo y es mucho más económico: solo requiere unos pocos miles de horas de GPU. Como se describe en la Sección V, consideramos que este enfoque es más efectivo que las técnicas de entrenamiento eficiente con parámetros (PEFT) como LoRA [16] para nuestros casos de uso.


Los tokenizadores LLM convierten texto en secuencias de tokens para la formación LLM. Un tokenizador específico de dominio mejora la eficiencia de la tokenización al adaptar reglas y patrones para términos específicos de dominio, como las palabras clave que se encuentran comúnmente en RTL. Para DAPT, no podemos volver a entrenar un nuevo tokenizador específico de dominio desde cero, ya que invalidaría el modelo básico. En lugar de restringir ChipNeMo al tokenizador de propósito general previamente entrenado utilizado por el modelo básico, adaptamos el tokenizador previamente entrenado a nuestro conjunto de datos de diseño de chip, agregando solo nuevos tokens para términos específicos de dominio.


Los modelos básicos de ChipNeMo son modelos de finalización que requieren un ajuste fino supervisado (SFT) para adaptarse a tareas como el chat. Utilizamos conjuntos de datos de instrucciones de chat de uso general disponibles públicamente para chat de varios turnos junto con una pequeña cantidad de conjuntos de datos de instrucciones específicas de dominio para realizar SFT en el modelo básico ChipNeMo, que produce el modelo ChipNeMo Chat. Observamos que SFT con un conjunto de datos de instrucciones de chat de propósito general es adecuado para alinear los modelos básicos de ChipNeMo con consultas en el dominio del diseño de chips. También agregamos una pequeña cantidad de datos de instrucciones SFT específicas de la tarea, lo que mejora aún más la alineación. Entrenamos múltiples modelos ChipNeMo Foundation y Chat basados en variantes de los modelos LLaMA2 utilizados como modelo base.


Para mejorar el rendimiento de la aplicación de chatbot asistente de ingeniería, también aprovechamos la generación aumentada de recuperación (RAG). RAG es un enfoque de libro abierto para brindar a los LLM un contexto preciso para las consultas de los usuarios. Recupera conocimiento relevante en el dominio de su almacén de datos para aumentar la generación de respuestas ante una consulta de usuario. Este método muestra una mejora significativa al basar el modelo en el contexto de una pregunta en particular. Fundamentalmente, observamos mejoras significativas en la tasa de aciertos de recuperación al ajustar un modelo de recuperación previamente entrenado con datos de dominio. Esto condujo a mejoras aún mayores en la calidad del modelo.


Destacamos las siguientes contribuciones y hallazgos relacionados con la adaptación de los LLM al dominio del diseño de chips:


• Demostramos la efectividad del LLM adaptado al dominio en tres casos de uso: un chatbot asistente de ingeniería, generación de scripts de herramientas EDA y resumen y análisis de errores. Logramos una puntuación de 7,4 sobre 10 en la escala de respuestas del chatbot del asistente de ingeniería basada en evaluaciones de expertos, logramos más del 50% de corrección en la generación de scripts EDA y una calificación de evaluación de expertos de 4 a 5 sobre 7 en una escala de puntos para resúmenes e identificación de tareas. tareas.


• Los modelos ChipNeMo adaptados al dominio superan dramáticamente a todos los LLM básicos evaluados tanto en puntos de referencia AutoEval específicos de dominio de opción múltiple como en evaluaciones humanas para aplicaciones.


• Para tareas en las que es posible que el modelo genere texto a partir del contexto del mensaje (por ejemplo, chat con visitas de RAG, resúmenes, generación de código con la documentación proporcionada), la adaptación de dominio cierra la brecha entre un modelo LLaMA2 70B de última generación y un modelo 13B mucho más pequeño (un pequeño costo de capacitación incremental permite una reducción de parámetros de hasta 5 veces para reducir el costo de inferencia).


• Los tokenizadores personalizados reducen el recuento de tokens DAPT hasta en un 3,3 % sin perjudicar la eficacia de las aplicaciones.


• SFT con 1,1 000 instrucciones específicas de dominio adicionales mejora significativamente el dominio de las aplicaciones hasta en 0,33 sobre una escala de 10 puntos, un 18 % de corrección y un 0,79 sobre una escala de 7 puntos en chatbot asistente de ingeniería, generación de scripts EDA y resumen de errores. análisis, respectivamente.


• El ajuste fino de nuestro modelo de recuperación ChipNeMo con datos específicos del dominio mejora la tasa de aciertos del recuperador en un 30 % en comparación con un recuperador de última generación previamente entrenado, lo que a su vez mejora la calidad general de las respuestas de RAG.


El documento está organizado de la siguiente manera. La Sección II describe nuestro conjunto de datos y puntos de referencia de evaluación automática para la verificación del conocimiento del dominio. La Sección III describe los métodos de capacitación y adaptación del dominio utilizados, incluido el tokenizador adaptado, DAPT, SFT y RAG. La Sección IV proporciona detalles de cada aplicación y la configuración experimental. La Sección V describe los resultados experimentales, incluidas las evaluaciones en humanos para cada aplicación. La Sección VI analiza las limitaciones de ChipNeMo y el trabajo futuro. La Sección VII describe los métodos LLM relevantes y otros trabajos dirigidos a LLM para el diseño de chips. Finalmente, en el Apéndice se ilustran los resultados completos junto con detalles adicionales de capacitación del modelo y ejemplos de texto generado por los casos de uso de la aplicación.


Este documento está disponible en arxiv bajo licencia CC 4.0.