Explicación de los precios de ChatGPT de Open AI: ¿Cuánto cuesta usar modelos GPT?

 How Much Does It Cost to Use GPT? GPT-3 Pricing Explained

El lanzamiento de ChatGPT ha causado un gran revuelo en torno a la tecnología detrás de él: Generative Pretrained Transformer-3 (comúnmente conocido como GPT-3). ¡No es de extrañar! Al poder realizar tareas de PNL con alta precisión, puede automatizar muchas tareas relacionadas con el lenguaje, como la clasificación de textos, la respuesta a preguntas, la traducción automática y el resumen de textos; se puede utilizar para generar contenido, analizar datos de clientes o desarrollar sistemas avanzados de inteligencia artificial conversacional.

Si está leyendo este artículo, probablemente ya haya tenido la oportunidad de jugar con ChatGPT o lo haya visto en acción en Youtube, blogs y publicaciones en redes sociales, y ahora está pensando en llevar las cosas al siguiente nivel. y aprovechar el poder de GPT-3 para sus propios proyectos.

Antes de sumergirse en todas las emocionantes posibilidades y planificar la hoja de ruta de su producto, abordemos una pregunta importante:

¿Cuánto cuesta usar GPT-3 en un proyecto comercial?

OpenAI promete precios simples y flexibles.

Podemos elegir entre cuatro modelos de lenguaje: Ada, Babbage, Curie y Davinci. Davinci es el más poderoso (usado en ChatGPT), pero los otros tres aún pueden usarse con éxito para tareas más sencillas, como escribir resúmenes o realizar análisis de sentimientos.

El precio se calcula por cada 1K tokens. Usando el modelo Davinci, pagaría $1 por cada 50K tokens usados. ¿Es mucho? Como se explica en la página de precios de OpenAI :

Puede pensar en los tokens como piezas de palabras utilizadas para el procesamiento del lenguaje natural. Para texto en inglés, 1 token tiene aproximadamente 4 caracteres o 0,75 palabras. Esto se traduce en aproximadamente ¾ de una palabra (es decir, 100 tokens ~= 75 palabras). Como punto de referencia, las obras recopiladas de Shakespeare tienen unas 900.000 palabras o 1,2 millones de fichas.

Entonces, por solo $ 100, puede realizar operaciones en ~ 3,750,000 palabras en inglés, que son ~ 7500 páginas de texto de espacio simple. Sin embargo, como podemos leer más adelante,

Las solicitudes de respuesta se facturan según la cantidad de tokens en las entradas que proporciona y la respuesta que genera el modelo . Internamente, este punto final realiza llamadas a las API de búsqueda y finalización, por lo que sus costos son una función de los costos de esos puntos finales.

Entonces, nuestras 7500 páginas de texto incluyen entrada, salida y el indicador con "instrucciones" para el modelo. Esto hace que todo el proceso de estimación sea un poco complicado, ya que no sabemos cuál puede ser el resultado.

Para averiguarlo, decidimos hacer un experimento.

El objetivo era verificar el uso real del token con las tres indicaciones de muestra, comprender qué factores tienen un impacto en el resultado y aprender a estimar mejor el costo de los proyectos GPT-3.

¿Cómo medir el uso de tokens en GPT-3?

El experimento implicó combinar solicitudes con corpus de texto, enviarlos a una API y luego calcular la cantidad de tokens devueltos.

Luego, se monitoreó el costo de la solicitud de API en la vista de uso y, dado que hay una solicitud por límite de una ventana de facturación, se implementó un tiempo de espera de al menos 5 minutos. Luego, el costo se calculó a mano y se comparó con el costo registrado en la vista de uso para ver si había discrepancias.

El plan era sencillo. Necesitábamos recopilar varios corpus (~10), preparar las indicaciones, estimar el uso del token y llamar a una API varias veces para ver los resultados reales.

Con base en los resultados, planeábamos buscar correlaciones entre la entrada (corpora + prompt) y la salida. Queríamos descubrir qué factores afectan la duración de la salida y ver si somos capaces de predecir el uso del token basándonos solo en la entrada y la solicitud.

Paso 1: Estimación del precio de los insumos GPT-3

Primero, queríamos verificar qué tan precisa era la información en la página de precios de OpenAI. Para hacerlo, tomamos los resultados del Tokenizer , una herramienta oficial proporcionada por OpenAI que calcula cómo la API tokenizaría un fragmento de texto y el recuento total de tokens en ese fragmento de texto, para que luego pudiéramos compararlos con los datos. desde la vista de uso y la facturación real.

Tomamos como corpus las descripciones de las diez aplicaciones más descargadas: TikTok, Instagram, Facebook, WhatsApp, Telegram, Snapchat, Zoom, Messenger, CapCut y Spotify.

Esto nos permitiría ejecutar varias operaciones en el texto y probar el corpus para diferentes casos de uso, como la búsqueda de palabras clave, resumir fragmentos de texto más largos y transformar el texto en requisitos del proyecto. La extensión de las descripciones varió de 376 a 2060 palabras.

Echemos un vistazo a cómo se veía. Aquí está el fragmento de una descripción de TikTok:

La muestra de texto constaba de 1609 palabras y 2182 tokens, que, según el modelo de GPT-3 elegido, debería costar:

Ada - $0,0009
Babbage - $0,0011
Curie - $0,0044
davinci - $0,0437

Hicimos lo mismo con cada una de las diez descripciones de aplicaciones en nuestro corpus.

Esta fue nuestra referencia para las pruebas reales con la API GPT-3.

Paso 2: Preparación de las indicaciones

Como siguiente paso, preparamos las indicaciones. A los efectos de este experimento, queríamos utilizar tres indicaciones para tres casos de uso diferentes.

Pregunta #1: Recopilación de requisitos del proyecto con GPT-3

El primer mensaje fue sobre la recopilación de requisitos del proyecto en función de la descripción de la aplicación dada.

Describe in detail, using points and bullet points, requirements strictly related to the project of an application similar to the below description:

Nuestro indicador tenía 22 palabras (148 caracteres), lo que equivalía a 26 tokens. Agregamos estos valores al corpus y calculamos nuevamente el uso estimado del token para cada modelo.

Mensaje n.º 2: Escribir un resumen de TL;DR con GPT-3

El segundo mensaje se trataba de escribir resúmenes de largos fragmentos de texto. El “trabajo” del modelo sería identificar las partes más importantes del texto y escribir un resumen conciso.

Create a short summary consisting of one paragraph containing the main takeaways of the below text:

Nuestro indicador tenía 16 palabras (99 caracteres), lo que equivalía a 18 tokens. Nuevamente, agregamos estos valores a los corpus.

Mensaje #3: Extracción de palabras clave con GPT-3

Se suponía que el último aviso buscaba y categorizaba las palabras clave del texto y luego las presentaba de cierta forma.

Parse the below content in search of keywords. Keywords should be short and concise. Assign each keyword a generic category, like a date, person, place, number, value, country, city, day, year, etc. Present it as a list of categories: keyword pairs.

Tenía 41 palabras (250 caracteres), lo que equivalía a 61 fichas. Junto con el texto del corpus, nos dio:

Se suponía que el siguiente paso finalmente nos daría algunas respuestas. Íbamos a enviar nuestras indicaciones con textos corporativos a la API, calcular la cantidad de tokens devueltos en la salida y monitorear nuestras solicitudes de API en la vista de uso.

Paso 3: prueba de API GPT-3

En esta etapa, decidimos centrarnos solo en el modelo GPT más avanzado: Davinci, el que es el núcleo de ChatGPT.

Como el uso del token en la plataforma OpenAI se mide en períodos de 5 minutos, nuestro script enviaba solo una solicitud de API cada 5 minutos. Cada solicitud era una combinación de un fragmento de texto (corpora) y un aviso. De esa forma, podríamos obtener información precisa sobre el uso del token para cada combinación y comparar los resultados con las estimaciones.

En total, tuvimos 30 combinaciones para probar: 3 indicaciones x 10 descripciones de aplicaciones. Por el bien de este experimento, no agregamos ninguna variable adicional en la configuración del modelo, como la temperatura del modelo, ya que aumentaría significativamente la cantidad de combinaciones y el costo del experimento.

Después de enviar estas 30 solicitudes, comparamos los resultados que se muestran en la vista Uso con los que se toman directamente de los metadatos de nuestras llamadas API.

Los resultados fueron coherentes entre sí. Además, el uso de tokens de las indicaciones, incluidas tanto la indicación como el corpus, también fue coherente con el uso estimado anteriormente con el Tokenizer.

En este punto, sabíamos que podíamos estimar el uso del token de la entrada con gran precisión. El siguiente paso fue verificar si había alguna correlación entre la longitud de la entrada y la longitud de la salida y averiguar si podemos estimar el uso del token de la salida.

La correlación entre el número de tokens de entrada y el número de tokens de salida fue muy débil*. Medir la cantidad de tokens de entrada no fue suficiente para estimar la cantidad total de tokens utilizados en una sola solicitud.

* La pendiente varió entre 0,0029 en el resumen TL;DR y 0,0246 en la solicitud de requisitos del proyecto.

¿Qué factores afectan el costo de usar GPT-3?

Si bien no hubo una correlación clara entre la cantidad de tokens de entrada (mensaje + corpora) y la cantidad de tokens de salida (respuesta), pudimos ver claramente que el factor que realmente afectó la cantidad de tokens de salida fue el mensaje en sí mismo: la instrucción que fue entregado a un modelo.

En todos los casos analizados, se necesitaron más tokens para generar los requisitos del proyecto que para extraer y agrupar palabras clave. Sin embargo, las diferencias en estos casos fueron bastante pequeñas y realmente no afectaron el costo de una sola solicitud, que fue de ~$0.04. Probablemente cambiaría si el indicador requiriera el modelo GPT-3 para crear un texto más largo (por ejemplo, un artículo de blog) basado en un resumen.

Además del caso de uso específico (para qué usamos el modelo), también hay otros factores que pueden afectar el costo de usar GPT-3 en su proyecto. Entre otros, estos serían:

temperatura del modelo

El parámetro de temperatura controla la aleatoriedad de las salidas del modelo, y establecerlo en un valor más alto puede generar salidas más diversas e impredecibles. Esto puede aumentar los recursos computacionales necesarios para ejecutar el modelo y, por lo tanto, afectar el costo.

Calidad de prontitud

Un buen aviso minimizará el riesgo de recibir una respuesta incorrecta.

Disponibilidad

El costo de usar GPT-3 también puede verse afectado por la disponibilidad del modelo. Si la demanda del modelo es alta, el costo puede aumentar debido a la disponibilidad limitada.

personalización

El costo de usar GPT-3 también puede verse influenciado por el nivel de personalización requerido. Si necesita una funcionalidad específica, es posible que se requiera trabajo de desarrollo adicional, lo que puede aumentar el costo.

Como usuario, puede controlar el presupuesto estableciendo límites suaves y estrictos. Con un límite suave, recibirá una alerta por correo electrónico una vez que supere un cierto umbral de uso, y un límite estricto simplemente rechazará cualquier solicitud de API posterior una vez que se alcance. También es posible configurar el parámetro max_tokens en la solicitud.

Sin embargo, debe tener en cuenta que los límites que establezca tendrán un impacto en la eficiencia del modelo. Si los límites son demasiado bajos, las solicitudes de API simplemente no se enviarán, por lo que usted y sus usuarios no obtendrán ninguna respuesta.

¿Cómo estimar el costo de usar GPT-3?

El experimento ha demostrado que es muy difícil proporcionar estimaciones precisas del uso de tokens basándose únicamente en el corpus y las indicaciones.

El costo de usar GPT-3 puede verse influenciado por una amplia gama de factores, incluido el caso de uso específico, la calidad de la indicación, el nivel de personalización, el volumen de llamadas a la API y los recursos informáticos necesarios para ejecutar el modelo.

Según el experimento realizado, podemos estimar aproximadamente el costo de usar GPT-3 solo para ciertos casos de uso, como la extracción de palabras clave, la recopilación de requisitos del proyecto o la redacción de resúmenes.

Costo de usar GPT-3 – simulación de proyecto

Echemos un vistazo al primer caso y supongamos que tiene un chatbot de servicio al cliente en su sitio web y le gustaría saber qué es lo que los usuarios suelen preguntar. Para obtener tales conocimientos, es necesario:

analizar todos los mensajes que envían,
extraer las entidades (por ejemplo, nombres de productos, categorías de productos),
y asigne a cada uno una etiqueta apropiada.

Tiene ~15.000 visitantes por mes , y cada visitante envía 3 solicitudes dos veces por semana . En este escenario, tenemos 360 000 solicitudes al mes . Si tomamos la duración promedio de la entrada y la salida del experimento (~1800 y 80 tokens) como valores representativos, podemos contar fácilmente el precio de una solicitud .

El costo de usar GPT-3 (modelo Davinci) en el caso analizado sería de ~$14,4K por mes.

Sin embargo, es importante tener en cuenta que solo se trata de una simulación simplificada y que sus resultados no son totalmente representativos.

Dado que el costo real de construir cualquier producto con tecnología GPT-3 depende de múltiples factores (la complejidad del proyecto, la cantidad y calidad de los datos, las indicaciones, la configuración del modelo, la cantidad de usuarios), el margen de error seguro de dicha estimación sería incluso 50-100%.

Para obtener estimaciones más confiables, sería útil ejecutar un proyecto de prueba de concepto y probar diferentes escenarios en el conjunto específico de datos: sus propias muestras de corpus.

¿Cuánto cuesta usar GPT? Resumen

GPT-3 es una tecnología relativamente nueva y todavía hay muchas incógnitas relacionadas con su uso comercial. El costo de usarlo es uno de ellos.

Si bien es posible medir el uso del token y su precio en el lado de entrada ($0.04 por 1000 tokens en el modelo Davinci más avanzado), es difícil predecir estos valores en el resultado. Hay muchas variables que los afectan, y la correlación entre la entrada y la salida es bastante baja.

Por eso, cualquier estimación "en bruto" es pura conjetura. Para aumentar la precisión de una estimación (pero también para validar la viabilidad de usar GPT-3 en un determinado caso de uso), es necesario ejecutar una prueba de concepto. En tal PoC, tomamos corpus de muestra y probamos el modelo con diferentes indicaciones y diferentes configuraciones de modelo para encontrar la mejor combinación.

BONIFICACIÓN: ¿Cuánto cuesta usar GPT-3.5 turbo con OpenAI Foundry?

El 21 de febrero, la información sobre la nueva oferta de OpenAI llamada Foundry se volvió viral, abriéndose camino desde Twitter hasta los medios tecnológicos más reconocidos, como Techcrunch yCMS Wire .

De acuerdo con el resumen del producto, ejecutar una versión liviana de GPT-3.5 costará $ 78,000 por un compromiso de tres meses o $ 264,000 por un compromiso de un año. Ejecutar la versión más avanzada del modelo Davinci (¡con un límite de tokens que supera en 8 veces a los que teníamos en GPT-3!) costará $468,000 por un compromiso de tres meses o $1,584,000 por un compromiso de un año.

Pero, ¿de qué se trata todo esto? Como podemos leer en Techcrunch :

Si hay que creer en las capturas de pantalla, Foundry, siempre que se lance, ofrecerá una "asignación estática" de capacidad informática (...) dedicada a un solo cliente. (…)
Foundry también ofrecerá compromisos de nivel de servicio, por ejemplo, tiempo de actividad y soporte de ingeniería en el calendario. Los alquileres se basarán en unidades informáticas dedicadas con compromisos de tres meses o un año; ejecutar una instancia de modelo individual requerirá una cantidad específica de unidades de cómputo.

Sin embargo, parece que el compromiso de nivel de servicio no debe tratarse como un contrato de precio fijo.

Por ahora, sería seguro asumir que el precio cubre solo el acceso a un determinado modelo en la capacidad dedicada "con control total sobre la configuración del modelo y el perfil de rendimiento", como podemos leer en las breves capturas de pantalla del producto.

Los precios de los tokens en los nuevos modelos, que se espera que sean muy esperados GPT-4 , aún no se anunciaron. Sin embargo, en la actualización reciente de la documentación de OpenAI , podemos leer que el GPT-3.5 Turbo cuesta 1/10 del costo del modelo GPT-3 Davinci, lo que nos da $0,002 por 1k tokens en GPT-3.5 Turbo.

Explicación de los precios de ChatGPT de Open AI: ¿Cuánto cuesta usar modelos GPT?

Demasiado Largo; Para Leer

¿Cuánto cuesta usar GPT-3 en un proyecto comercial?

¿Cómo medir el uso de tokens en GPT-3?