paint-brush
Los 15 mejores conjuntos de datos de Chatbot para proyectos de PNLpor@limarc
20,035 lecturas
20,035 lecturas

Los 15 mejores conjuntos de datos de Chatbot para proyectos de PNL

por Limarc Ambalina3m2020/12/02
Read on Terminal Reader
Read this story w/o Javascript

Demasiado Largo; Para Leer

Un chatbot efectivo requiere una gran cantidad de datos de capacitación para resolver rápidamente las consultas de los usuarios sin intervención humana. Sin embargo, el cuello de botella principal en el desarrollo de chatbots es obtener datos de diálogo realistas y orientados a tareas para entrenar estos sistemas basados en aprendizaje automático.

People Mentioned

Mention Thumbnail
Mention Thumbnail

Company Mentioned

Mention Thumbnail
featured image - Los 15 mejores conjuntos de datos de Chatbot para proyectos de PNL
Limarc Ambalina HackerNoon profile picture

Un chatbot efectivo requiere una gran cantidad de datos de entrenamiento para resolver rápidamente las consultas de los usuarios sin intervención humana. Sin embargo, el cuello de botella principal en el desarrollo de chatbots es obtener datos de diálogo realistas y orientados a tareas para entrenar estos sistemas basados en aprendizaje automático.

Hemos reunido la lista definitiva de los mejores conjuntos de datos conversacionales para entrenar un chatbot, desglosados en datos de preguntas y respuestas, datos de atención al cliente, datos de diálogo y datos multilingües.

Conjuntos de datos de preguntas y respuestas para la formación de chatbots

Conjunto de datos de preguntas y respuestas : este corpus incluye artículos de Wikipedia, preguntas factoides generadas manualmente a partir de ellos y respuestas generadas manualmente a estas preguntas, para su uso en investigaciones académicas.

El Corpus de WikiQA : un conjunto disponible públicamente de pares de preguntas y oraciones, recopilados y anotados para la investigación sobre la respuesta a preguntas de dominio abierto. Para reflejar la verdadera necesidad de información de los usuarios generales, utilizaron los registros de consultas de Bing como fuente de preguntas. Cada pregunta está vinculada a una página de Wikipedia que potencialmente tiene la respuesta.

Datos de idioma de Yahoo : esta página presenta conjuntos de datos de control de calidad seleccionados manualmente de Yahoo Respuestas de Yahoo.

Colección TREC QA : TREC ha tenido una pista de respuesta a preguntas desde 1999. En cada pista, la tarea se definió de tal manera que los sistemas debían recuperar pequeños fragmentos de texto que contenían una respuesta para preguntas de clase cerrada y de dominio abierto.

Conjuntos de datos de atención al cliente para la capacitación de Chatbot

Ubuntu Dialogue Corpus : consta de casi un millón de conversaciones de dos personas extraídas de los registros de chat de Ubuntu, que se utilizan para recibir soporte técnico para varios problemas relacionados con Ubuntu. El conjunto de datos completo contiene 930 000 diálogos y más de 100 000 000 palabras

Estrategias relacionales en el conjunto de datos de servicio al cliente : una colección de datos de servicio al cliente relacionados con viajes de cuatro fuentes. Los registros de conversación de tres IVA comerciales de servicio al cliente y los foros de aerolíneas en TripAdvisor.com durante agosto de 2016.

Atención al cliente en Twitter : este conjunto de datos en Kaggle incluye más de 3 millones de tweets y respuestas de las marcas más importantes en Twitter.

Conjuntos de datos de diálogo para la capacitación de Chatbot

Registros de chat de IRC de grupos de interés de web semántica : este registro de chat de IRC generado automáticamente está disponible en RDF, desde 2004, a diario, incluidas marcas de tiempo y apodos.

Cornell Movie-Dialogs Corpus : este corpus contiene una gran colección rica en metadatos de conversaciones ficticias extraídas de guiones de películas en bruto: 220 579 intercambios conversacionales entre 10 292 pares de personajes de películas que involucran a 9035 personajes de 617 películas.

Conjunto de datos ConvAI2 : el conjunto de datos contiene más de 2000 diálogos para una competencia de PersonaChat , donde evaluadores humanos reclutados a través de la plataforma de crowdsourcing Yandex.Toloka chatearon con bots enviados por equipos.

Corpus de inglés americano hablado de Santa Bárbara : este conjunto de datos incluye aproximadamente 249 000 palabras de transcripción, audio y marcas de tiempo a nivel de unidades de entonación individuales.

El corpus de chat de NPS : este corpus consta de 10 567 publicaciones de aproximadamente 500 000 publicaciones recopiladas de varios servicios de chat en línea de acuerdo con sus términos de servicio.

Diálogo orientado a objetivos de Maluuba : conjunto de datos de diálogo abierto donde la conversación tiene como objetivo realizar una tarea o tomar una decisión, específicamente, encontrar vuelos y un hotel. El conjunto de datos contiene conversaciones complejas y toma de decisiones que abarcan más de 250 hoteles, vuelos y destinos.

Conjunto de datos del Mago de Oz multidominio (MultiWOZ) : una colección completamente etiquetada de conversaciones escritas que abarcan múltiples dominios y temas. El conjunto de datos contiene 10k diálogos y es al menos un orden de magnitud más grande que todos los corpus anteriores orientados a tareas anotados.

Conjuntos de datos de capacitación de chatbots multilingües

NUS Corpus : Este corpus fue creado para la normalización y traducción de textos de redes sociales. Se crea seleccionando al azar 2000 mensajes del corpus de SMS en inglés de NUS y luego se traduce al chino formal.

Conjuntos de datos de EXCITEMENT : estos conjuntos de datos, disponibles en inglés e italiano, contienen comentarios negativos de los clientes en los que indican los motivos de su insatisfacción con una empresa determinada.

¿Todavía no puede encontrar los datos que necesita? Lionbridge AI proporciona datos de capacitación de bots de chat personalizados para el aprendizaje automático en 300 idiomas para ayudar a que sus conversaciones sean más interactivas y comprensivas para los clientes de todo el mundo. Contáctenos hoy para obtener más información sobre cómo podemos trabajar para usted.

Imagen principal a través de Volodymyr en Unsplash

Publicado originalmente por Alex Nguyen en: https://lionbridge.ai/datasets/15-best-chatbot-datasets-for-machine-learning/ y se ha vuelto a publicar con autorización.