TL; DR: en 49 717 preguntas de opción múltiple, ChatGPT fue correcto el 66,7 % de las veces. Sigue leyendo para ver el desglose por categoría
Hace unos 6 años , tuve la idea de ver qué tan bien podías responder preguntas de trivia con IA. Utilicé word2vec y seleccioné las respuestas en función de qué respuesta de opción múltiple tenía la mayor similitud de coseno con el promedio del vector de la oración. En pocas palabras, esto... no funcionó en absoluto.
El porcentaje de preguntas que este método acertó no fue notablemente mejor que seleccionar respuestas al azar.
Cuando apareció por primera vez el documento word2vec, fue revolucionario que pudiéramos hacer analogías para los significados semánticos de las palabras. “ Rey - Hombre + Mujer = Reina ”. Estaba anonadado. El artículo original salió en 2013 y aquí estamos en 2023.
La friolera de 10 años después e innumerables generaciones de avances en el aprendizaje automático, la comprensión, la comprensión, etc.
En junio de 2017, fuimos bendecidos con el documento " La atención es todo lo que necesita ", que presentó la arquitectura transformadora que fue la función de paso que nos trajo esta revolución en el procesamiento del lenguaje natural. Entonces, ¿qué es diferente ahora?
A fines de 2022, OpenAI lanzó ChatGPT . Lo cual, en el centro de todo, es una experiencia de usuario brillante que se le ocurrió a alguien para interactuar con GPT-3.5.
El GPT-3 original estuvo disponible en el verano de 2020 en versión beta privada, y aunque hay una interfaz de usuario de juegos , el uso de GPT-3 todavía era bastante intimidante para la persona común.
El patio de recreo presentaba todas las perillas y parámetros para ajustar la respuesta de GPT-3 y eso hizo que muchas personas no lo usaran. ChatGPT, por otro lado, era… un chatbot. No se veía diferente a hablar con alguien en Slack o Microsoft Teams.
Cualquiera podía inscribirse, no había lista de espera ni mandos aterradores. ChatGPT ganó 1 millón de usuarios en solo 5 días .
En el resto de este artículo, me referiré al modelo como ChatGPT, aunque eso no es del todo exacto, ya que ChatGPT es una versión mejorada de GPT-3.5.
Entonces, ¿qué tan inteligente es? Seis años después de mi experimento original, quería averiguar cuáles son las capacidades de algunos de los aprendizajes automáticos más impresionantes que hemos visto hasta la fecha. Hemos visto los trabajos creativos de ChatGPT. Incluso creé un sitio web divertido para que lo usemos mi esposa y yo: https://catstories.ai.
ChatGPT es increíble en tareas creativas, pero para tareas que implican más conocimiento, las opiniones están significativamente más divididas.
Algunas personas están convencidas de que ChatGPT, con su interfaz intuitiva, va a reemplazar a los motores de búsqueda tradicionales como Google. Microsoft está integrando ChatGPT directamente en su motor de búsqueda , junto con otros productos.
ChatGPT aprende todo lo que sabe al leer grandes cantidades de Internet y usa esa información cuando genera texto. Para los no técnicos, puede considerarlo como el autocompletado de su teléfono, pero mucho más inteligente.
Si es inteligente acerca de cómo solicitar ChatGPT, puede hacer que haga cosas revolucionarias y pruebe su conocimiento. Por ejemplo, ChatGPT pudo aprobar el examen de la barra .
Puede hacer que escriba una copia de marketing o que escriba correos electrónicos para usted. Pero si vamos a usarlo como una fuente de verdad para reemplazar cosas como los motores de búsqueda, ¿cómo funciona con el conocimiento general?
El conjunto de datos uberspot/OpenTriviaQA es un conjunto de datos creative commons de preguntas de opción múltiple. Las preguntas se dividen en 22 categorías, tales como: animales, entretenimiento, historia, películas y deportes.
La mayoría de las preguntas tienen 4 posibles respuestas de opción múltiple, pero algunas de las preguntas son preguntas verdaderas o falsas.
Las preguntas vienen en el siguiente formato:
#Q What is the name of Rocky Balboas restaurant? ^ Adrians A Rockys B Mickeys C Adrians D Apollos
Primero, tienes la pregunta en sí. Entonces tienes la respuesta correcta. Por último, tiene sus opciones de respuestas; uno en cada línea.
Mi script descargaría cada una de las categorías y haría todas y cada una de las preguntas a ChatGPT.
Para la pregunta anterior, formatearía mi mensaje para que se vea así:
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer and nothing else. Question: What is the name of Rocky Balboas restaurant? Possible answers: Rockys Mickeys Adrians Apollos Your answer:
Luego enviaría esto a ChatGPT y compararía su respuesta con la respuesta correcta.
Aquí están los datos sin procesar, ordenados de menos a más correctos:
Category Correct Total Percentage brain-teasers 103 207 0.497585 video-games 310 599 0.517529 television 2911 5230 0.556597 entertainment 163 280 0.582143 animals 815 1366 0.596632 celebrities 1909 3196 0.597309 sports 1728 2840 0.608451 movies 2647 4314 0.613584 for-kids 485 759 0.638999 music 3746 5579 0.671447 literature 888 1288 0.689441 hobbies 867 1242 0.698068 general 2306 3290 0.700912 newest 2117 3016 0.701923 people 1974 2743 0.71965 technology 1820 2486 0.7321 world 3571 4875 0.732513 religion-faith 469 638 0.73511 history 1228 1645 0.746505 rated 1640 2185 0.750572 humanities 831 1097 0.75752 geography 652 842 0.774347 overall 33180 49717 0.667377
Es realmente interesante ver cómo se descomponen estas categorías. En particular, a ChatGPT no le fue bien en la categoría de acertijos. Veamos algunos ejemplos de estas preguntas.
#Q The name of what is coded in the following: 86,smopuim? A it does not mean anything B the name of a software product C a NASA aircraft D a secret CIA project
Me tomó un tiempo darme cuenta, pero ChatGPT lo entendió correctamente. La respuesta es B. Esos caracteres dicen windows,98 al revés. Cuando estaba hablando con un amigo mío en Fearless AWS , me sugirió que intentara que ChatGPT se explicara solo. Así que hice eso.
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: The name of what is coded in the following: 86,smopuim? Possible answers: it does not mean anything the name of a software product a NASA aircraft a secret CIA project Your answer: the name of a software product The numbers 86 and smopuim are likely a code for a software product, as they are not a recognizable acronym or phrase.
Al principio, me impresionó que ChatGPT pudiera resolver esto, pero en realidad parece que ChatGPT simplemente lo adivinó.
Veamos un ejemplo donde ChatGPT fue incorrecto.
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: What number multiplied by 10 equals the square of the same number, times 5? Possible answers: 4 5 2 10 Your answer: 5 Explanation: 5 multiplied by 10 is equal to 50, which is the square of 5, times 5.
Aquí hay una gran demostración de cómo ChatGPT puede ser bastante tonto. Se equivocó completamente de aritmética. Debido a que solo genera texto, eso no significa que haya codificado correctamente la aritmética. La respuesta correcta aquí es 2. 2 al cuadrado es 4, multiplicado por 5 es 20. 2 multiplicado por 10 también es 20.
Veamos otro ejemplo en el que ChatGPT fue correcto según el conjunto de datos, pero la explicación no cuadra del todo:
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: A man is carrying three croquet balls across a bridge. The bridge has a sign that says bridge can only hold 200 pounds. The man weighs 195 pounds and the croquet balls weigh 2 pounds each. The man ends up crossing the bridge in one trip and no one else helps him. This is possible. Possible answers: False True Your answer: True The man is carrying three croquet balls that weigh 2 pounds each, for a total of 6 pounds. This means that the man and the croquet balls combined weigh 201 pounds, which is less than the maximum weight of 200 pounds that the bridge can hold. Therefore, the man is able to cross the bridge in one trip.
Entonces, este es realmente interesante. El conjunto de datos no tiene una explicación para ninguno de estos acertijos, pero enumera la respuesta correcta como "verdadero". Si buscas en Google, encontrarás que se supone que la respuesta al acertijo es "verdadera" porque el hombre puede hacer malabarismos con las bolas.
Ignorando la física real de tal situación, la respuesta de ChatGPT, una vez más, obtiene la aritmética completamente incorrecta al decir que 201 libras es menos que el peso máximo de 200 libras.
Veamos un ejemplo final que aborda algo en el campo de la PNL llamado esquema de Winograd . Lo cual, para simplificar demasiado, es básicamente poder entender cómo los pronombres se resuelven en actores ambiguos en la misma oración.
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: If the mother of a boy spanks him and then his father comes and does the same, who hurts the most? Possible answers: The boys brother The mother The boy The father Your answer: The boy Explanation: The boy is the one being spanked, so he would experience the most pain.
En esta respuesta, ChatGPT explica que el niño es el que está siendo azotado y, por lo tanto, aunque puede haber cierta ambigüedad entre los usos de "él" y "suyo" que se refieren al niño o al padre, ChatGPT entiende el contexto de el chico siendo azotado.
Estos acertijos requieren conclusiones lógicas que parecen que ChatGPT realmente no razona. Tiene sentido que esta sea la categoría en la que ChatGPT ha fallado más, pero también hay algunas respuestas impresionantes.
Dicho esto, incluso pedirle a ChatGPT que se explique es una respuesta generada. No hay nada que decir que esto es legítimamente cómo ChatGPT está pensando en los problemas.
Veamos otra categoría, la literatura, en la que presumiblemente ChatGPT debería ser bueno porque debería haber mucho texto y referencias para aprender sobre la literatura.
Estos acertijos requieren conclusiones lógicas que parecen que ChatGPT realmente no razona. Tiene sentido que esta sea la categoría en la que ChatGPT ha fallado más.
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: In what book of the Harry Potter series do Harry and Ginny kiss for the first time? Possible answers: Harry Potter and the Order of the Phoenix Harry Potter and the Prisoner of Azkaban Harry Potter and the Deathly Hallows Harry Potter and the Half Blood Prince Your answer: Harry Potter and the Half Blood Prince Harry and Ginny kiss for the first time in Harry Potter and the Half Blood Prince, when Harry visits Ginny in the Gryffindor common room.
En este caso, ChatGPT es correcto. Harry Potter es lo suficientemente popular entre un gran fandom que tiene sentido que probablemente se hable mucho de esto.
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: Harry Potter marries Hermione in the last book of the series. Possible answers: True False Your answer: True Explanation: In the epilogue of the final book, Harry and Hermione are married and have two children.
Otro caso realmente interesante aquí. Harry se casa con Ginny y tiene dos hijos, no Hermione. Tratando de pensar cómo podría haber sucedido esto, me pregunto si los comentarios de Internet y tal vez la ficción de fanáticos que formaba parte del conjunto de entrenamiento tenían suficiente contenido que prefería que Harry y Hermione estuvieran juntos.
La implicación allí para la mayor base de conocimiento de ChatGPT es que usted podría influir en lo que considera que es cierto si hay suficiente *opinión* en sus datos de entrenamiento.
Como dije, hay casi 50,000 preguntas. Indagar en todos y cada uno de ellos no es práctico para un solo post, pero es realmente interesante intentar intuir por qué ChatGPT es mejor o peor en varias categorías.
En categorías como los acertijos, hay mucha más lógica de la que se necesita aplicar y combinar para responder algunas de las preguntas.
En otras categorías de baja puntuación como la televisión y los videojuegos, supongo que debido a que el contenido en sí no está en un formato indexable/consumible, ChatGPT no tiene tanta información al respecto.
ChatGPT no ha jugado los juegos ni visto los programas de televisión. Puede haber contenido de terceros ACERCA de lo que sucedió en los programas, pero los contenidos del programa se mencionarán de pasada.
En las categorías de puntuación alta, todas las categorías tienden a ser para contenidos que han sido documentados en texto mucho antes de que tuviéramos audio, video, etc.
La categoría de geografía y la categoría de historia tienen contenido que ha existido mucho antes de que tuviéramos la tecnología y el almacenamiento para mantener regularmente cosas como contenido de televisión.
Habiendo dicho todo eso, el 66% de corrección sigue siendo bastante impresionante dada una selección tan amplia de temas. Pero como aprendimos, a veces las respuestas son supuestamente correctas, pero las explicaciones no siempre son correctas.
No creo que ChatGPT o cualquier modelo de lenguaje grande que tengamos en este momento sea la IA fuerte o la IA general que algunos artículos quieren que creas que es.
No creo que ningún modelo de lenguaje grande que sea de naturaleza generativa deba reemplazar los motores de búsqueda tradicionales que muestran información de alta calidad. Hay motores de búsqueda como you.com que están explorando la intersección, ¡pero aún es pronto para esta tecnología!
Entre el desarrollo y las ejecuciones finales, este experimento me costó alrededor de $ 100 para acceder a la API GPT-3 para todas las preguntas. Te estaría eternamente agradecido si consideraras invitarme a un café .
Si una empresa estuviera dispuesta a patrocinar el trabajo, sería interesante probar diferentes indicaciones, aleatorizar el orden de las respuestas, intentar ejecutar las pruebas varias veces, etc.
También me encantaría ejecutar la misma prueba con el conjunto completo de preguntas de Jeopardy , pero dado lo costosa que fue esta prueba, ejecutar la prueba con un conjunto de preguntas casi 10 veces mayor sería demasiado para mí en este momento.
Como siempre, el código que escribí para esto está disponible. Consulte el código de esta publicación, incluidas las respuestas de ChatGPT , haciendo clic aquí .
Foto de Nguyen Dang Hoang Nhu en Unsplash