He aquí mi intento más conciso: " La ciencia de datos es la disciplina de hacer que los datos sean útiles ". Siéntase libre de huir ahora o quedarse en un recorrido por sus tres subcampos.
Si hurga en la historia temprana del término ciencia de datos , verá que se unen dos temas. Permítanme parafrasear para su diversión:
Y así nace la ciencia de datos. La forma en que escuché por primera vez que se define el trabajo es "Un científico de datos es un estadístico que puede codificar". Estaré lleno de opiniones sobre eso en un momento , pero primero, ¿por qué no examinamos la ciencia de datos en sí?
Definiciones de Twitter alrededor de 2014.
Me encanta cómo el lanzamiento de Journal of Data Science en 2003 va bien para el alcance más limitado posible: "Por 'Ciencia de datos' nos referimos a casi todo lo que tiene algo que ver con los datos". Entonces… ¿todo, entonces? Es difícil pensar en algo que no tenga nada que ver con la información. (Debería dejar de pensar en esto antes de que me explote la cabeza).
Desde entonces, hemos visto una multitud de opiniones, desde el muy transitado diagrama de Venn de Conway ( abajo ) hasta la publicación clásica de Mason y Wiggins.
La definición de ciencia de datos de Drew Conway . Mi gusto personal va más hacia la definición en Wikipedia .
Wikipedia tiene uno que es muy parecido a lo que enseño a mis alumnos:
La ciencia de datos es un "concepto para unificar estadísticas, análisis de datos, aprendizaje automático y sus métodos relacionados" para "comprender y analizar fenómenos reales" con datos.
Eso es un bocado, así que déjame ver si puedo hacerlo breve y dulce:
“La ciencia de datos es la disciplina de hacer que los datos sean útiles”.
Lo que estás pensando ahora podría ser: “Buen intento, Cassie. Es lindo, pero es una reducción notoriamente con pérdidas. ¿Cómo la palabra 'útil' captura toda esa jerga?”
Bueno, está bien, discutámoslo con imágenes.
Aquí hay un mapa para la ciencia de datos para usted, perfectamente fiel a la definición de Wikipedia .
¿Qué son estas cosas y cómo sabes dónde estás en el mapa?
Si está a punto de intentar desglosarlos por kits de herramientas estándar , disminuya la velocidad. La diferencia entre un estadístico y un ingeniero de aprendizaje automático no es que uno use R y el otro use Python. La taxonomía SQL vs R vs Python es desaconsejable por muchas razones, una de las cuales es que el software evoluciona. (Recientemente, incluso puede hacer ML en SQL ). ¿No preferiría un desglose que dure? De hecho, siga adelante y no lea todo este párrafo.
Quizás lo peor es la forma favorita en que los novatos dividen el espacio. Sí, lo has adivinado: por el algoritmo (¡sorpresa! así están estructurados los cursos universitarios). Bastante por favor, no taxonomice por histogramas vs pruebas t vs redes neuronales. Francamente, si es inteligente y tiene algo que decir, puede usar el mismo algoritmo para cualquier parte de la ciencia de datos. Puede parecer el monstruo de Frankenstein, pero te aseguro que puede ser forzado a cumplir tus órdenes.
¡Basta ya de dramatismo! Aquí está la taxonomía que propongo:
¿Qué diablos es esto? ¡Por qué, decisiones, por supuesto! (En información incompleta . Cuando todos los datos que necesita estén visibles para usted, puede usar el análisis descriptivo para tomar tantas decisiones como desee. Solo mire los datos y listo).
Es a través de nuestras acciones, nuestras decisiones, que afectamos al mundo que nos rodea.
Te prometí que íbamos a hablar sobre cómo hacer que los datos sean útiles. Para mí, la idea de utilidad está estrechamente relacionada con la influencia en las acciones del mundo real. Si creo en Papá Noel, no importa particularmente a menos que pueda influir en mi comportamiento de alguna manera. Luego, dependiendo de las posibles consecuencias de ese comportamiento, podría comenzar a importar mucho. Es a través de nuestras acciones, nuestras decisiones, que afectamos al mundo que nos rodea (e invitamos a que nos afecte a nosotros).
Así que aquí está la nueva imagen orientada a la toma de decisiones para usted, completa con las tres formas principales de hacer que sus datos sean útiles.
Si aún no sabes qué decisiones quieres tomar, lo mejor que puedes hacer es salir en busca de inspiración. Eso se llama minería de datos o análisis o análisis descriptivo o análisis exploratorio de datos (EDA) o descubrimiento de conocimiento (KD), dependiendo de con qué grupo te juntaste durante tus años impresionables.
Regla de oro de la analítica: solo saca conclusiones sobre lo que puedes ver.
A menos que sepa cómo piensa enmarcar su toma de decisiones, comience aquí. La buena noticia es que este es fácil. Piense en su conjunto de datos como un montón de negativos que encontró en un cuarto oscuro. La minería de datos se trata de hacer funcionar el equipo para exponer todas las imágenes lo más rápido posible para que pueda ver si hay algo inspirador en ellas. Al igual que con las fotos, recuerda no tomarte demasiado en serio lo que ves. No tomaste las fotos, por lo que no sabes mucho sobre lo que está fuera de la pantalla. La regla de oro de la minería de datos es: adhiérase a lo que está aquí. Solo saque conclusiones sobre lo que puede ver, nunca sobre lo que no puede ver (para eso necesita estadísticas y mucha más experiencia).
Aparte de eso, no puedes hacer nada malo. La velocidad gana, así que empieza a practicar.
La experiencia en minería de datos se juzga por la velocidad con la que puede examinar sus datos. Ayuda a no dormitar más allá de las pepitas interesantes.
El cuarto oscuro es intimidante al principio, pero no hay tanto. Simplemente aprenda a trabajar con el equipo. Aquí hay un tutorial en R y aquí hay uno en Python para comenzar. Puede llamarse analista de datos tan pronto como comience a divertirse y puede llamarse analista experto cuando pueda exponer fotos (y todos los demás tipos de conjuntos de datos) a la velocidad del rayo.
La inspiración es barata, pero el rigor es caro. Si desea ir más allá de los datos, necesitará capacitación especializada. Como alguien con licenciatura y posgrado en estadística, puede que esté un poco sesgado aquí, pero en mi opinión, la inferencia estadística (estadística para abreviar) es la más difícil y cargada de filosofía de las tres áreas. Ser bueno en eso lleva la mayor parte del tiempo.
La inspiración es barata, pero el rigor es caro.
Si tiene la intención de tomar decisiones importantes, de alta calidad y con control de riesgos que se basen en conclusiones sobre el mundo más allá de los datos disponibles para usted, tendrá que incorporar habilidades estadísticas a su equipo. Un gran ejemplo es ese momento en el que tu dedo está sobre el botón de inicio de un sistema de IA y se te ocurre que debes comprobar que funciona antes de soltarlo (siempre es una buena idea, en serio). Aléjese del botón y llame al estadístico.
La estadística es la ciencia de cambiar de opinión (bajo incertidumbre).
Si desea obtener más información, he escrito este súper resumen de estadísticas de 8 minutos para su disfrute.
El aprendizaje automático consiste esencialmente en hacer recetas de etiquetado de cosas utilizando ejemplos en lugar de instrucciones . He escrito algunas publicaciones al respecto, incluso si es diferente de la IA, cómo comenzar con ella, por qué las empresas fallan y el primer par de artículos en una serie de lenguaje sencillo aborda los aspectos esenciales de la jerga ( empezar aquí ). Ah, y si quieres compartirlos con amigos que no hablen inglés, algunos de ellos están traducidos aquí .
¿Qué pasa con la ingeniería de datos , el trabajo que entrega datos al equipo de ciencia de datos en primer lugar? Dado que es un campo sofisticado por derecho propio, prefiero protegerlo de las aspiraciones hegemónicas de la ciencia de datos. Además, está mucho más cerca en especie a la ingeniería de software que a las estadísticas.
La diferencia entre ingeniería de datos y ciencia de datos es una diferencia de antes y después.
Siéntase libre de ver la diferencia entre la ingeniería de datos y la ciencia de datos como antes y después . La mayor parte del trabajo técnico que conduce al nacimiento de los datos (antes) puede llamarse cómodamente "ingeniería de datos" y todo lo que hacemos una vez que han llegado algunos datos (después) es "ciencia de datos".
DI tiene que ver con las decisiones , incluida la toma de decisiones a escala con datos, lo que la convierte en una disciplina de ingeniería. Aumenta los aspectos aplicados de la ciencia de datos con ideas de las ciencias sociales y de gestión.
La inteligencia de decisiones agrega componentes de las ciencias sociales y de gestión.
En otras palabras, es un superconjunto de esos bits de ciencia de datos que no se preocupan por cosas de investigación como la creación de metodologías fundamentales para uso de propósito general.
¿Todavía hambriento? Aquí hay un desglose de los roles en un proyecto de ciencia de datos para entretenerlo mientras toco mi teclado.