En Hacker Noon, compartiré algunos de mis artículos de aprendizaje automático con mejor rendimiento. Esta lista sobre conjuntos de datos creados para tareas de regresión o regresión lineal se ha votado a favor muchas veces en Reddit y se ha compartido docenas de veces en varias plataformas de redes sociales. ¡Espero que los científicos de datos de Hacker Noon también lo encuentren útil!
Es probable que todos los científicos de datos tengan que realizar tareas de regresión lineal y procesos de modelado predictivo en algún momento de sus estudios o carrera. Para aquellos de ustedes que buscan obtener más información sobre el tema o completar algunas tareas de muestra, este artículo presentará conjuntos de datos de regresión lineal abiertos que pueden descargar hoy. Además, algunos de los conjuntos de datos de esta lista incluyen tareas de regresión de muestra para que las complete con los datos.
1. Regresión lineal del cáncer
Este conjunto de datos incluye datos tomados de cancer.gov sobre muertes por cáncer en los Estados Unidos. Junto con el conjunto de datos, el autor incluye un recorrido completo sobre cómo obtuvieron y prepararon los datos, su análisis exploratorio, selección de modelos, diagnóstico e interpretación.
2. Datos de los CDC: nutrición, actividad física, obesidad
Del Sistema de Vigilancia de Factores de Riesgo del Comportamiento de los CDC, este conjunto de datos incluye información sobre la actividad física, el peso y la dieta promedio de un adulto.
3. Conjunto de datos del mercado de pescado
Creado para la regresión lineal múltiple y el análisis multivariado, el conjunto de datos del mercado de pescado contiene información sobre las especies de pescado comunes en las ventas del mercado. El conjunto de datos incluye la especie de pez, el peso, la longitud, la altura y el ancho.
Este conjunto de datos se inspiró en el libro Machine Learning with R de Brett Lantz. Los datos contienen información médica y costos facturados por las compañías de seguros de salud. Contiene 1338 filas de datos y las siguientes columnas: edad, sexo, IMC, niños, fumador, región, cargos del seguro.
5. Conjunto de datos de la Bolsa de Valores de Nueva York
Creado como un recurso para el análisis técnico, este conjunto de datos contiene datos históricos del mercado de valores de Nueva York. El conjunto de datos viene en cuatro archivos CSV: precios, precios ajustados por división, valores y fundamentos. Con estos datos, puede experimentar con modelos predictivos, regresión lineal móvil y más.
El desafío de regresión OLS le asigna la tarea de predecir las tasas de mortalidad por cáncer en los condados de EE. UU. El conjunto de datos contiene datos de cancer.gov, Clinicaltrials.gov y la Encuesta sobre la comunidad estadounidense. Está en formato CSV e incluye la siguiente información sobre el cáncer en los EE. UU.: tasas de mortalidad, casos informados, nombre del condado de EE. UU., ingresos por condado, población, datos demográficos y más.
7. Predicción de precios de bienes raíces
Este conjunto de datos inmobiliarios se creó para análisis de regresión, regresión lineal, regresión múltiple y modelos de predicción. Incluye la fecha de compra, la edad de la casa, la ubicación, la distancia a la estación MRT más cercana y el precio de la casa por unidad de área.
Desde el repositorio de aprendizaje automático de UCI, este conjunto de datos se puede usar para tareas de clasificación y modelado de regresión. El conjunto de datos incluye información sobre las propiedades químicas de los diferentes tipos de vino y cómo se relacionan con la calidad general.
9. Conjunto de datos del vehículo de CarDekho
Un conjunto de datos útil para la predicción de precios, este conjunto de datos de vehículos incluye información sobre automóviles y motocicletas que figuran en CarDekho.com. Los datos están en un archivo CSV que incluye las siguientes columnas: modelo, año, precio de venta, precio de exposición, kilómetros recorridos, tipo de combustible, tipo de vendedor, transmisión y número de propietarios anteriores.
10. Estadísticas de la OMS sobre la esperanza de vida
Este conjunto de datos contiene información compilada por la Organización Mundial de la Salud y las Naciones Unidas para rastrear los factores que afectan la esperanza de vida. Los datos contienen 2938 filas y 22 columnas. Las columnas incluyen: país, año, estado de desarrollo, mortalidad de adultos, esperanza de vida, muertes infantiles, consumo de alcohol per cápita, gasto del país en salud, cobertura de inmunización, IMC, muertes de menores de 5 años, muertes por VIH/SIDA, PIB, población, condición corporal, información sobre ingresos y educación.
Usando los conjuntos de datos anteriores, debería poder practicar varias tareas de modelado predictivo y regresión lineal.
Si está buscando más conjuntos de datos abiertos para el aprendizaje automático, asegúrese de consultar esta biblioteca de conjuntos de datos y nuestros recursos relacionados a continuación:
Este artículo también se publicó en: https://lionbridge.ai/datasets/10-open-datasets-for-linear-regression/