La ciencia de datos recorrió un largo camino desde los primeros días de las conferencias Knowledge Discovery in Databases (KDD) y Very Large Data Bases (VLDB) . Los ingenieros de software de las décadas de 1980 y 1990 que manejaban bases de datos se convirtieron en ingenieros de bases de datos especializados en la década de 2000 . Mientras tanto, grupos de científicos informáticos en laboratorios de investigación más pequeños experimentan sobre aprendizaje automático e inteligencia artificial . Los grandes datos se encuentran con el algoritmo inteligente chocaron en una explosión cámbrica en la década de 2010, lo que convirtió a " Científico de datos: el trabajo más sexy del siglo XXI ". Eso nos lleva a una década más tarde, después de la pandemia de 2022, haciendo la pregunta: " ¿Sigue siendo el científico de datos el trabajo más atractivo del siglo XXI? ”.

¿Por qué estás escribiendo este artículo?

Perdón por el atajo, pero este artículo está escrito junto con el Premio Noonies 2022. Los premios Noonie 2002 de HackerNoon celebran a los escritores técnicos que comparten sus mejores y más brillantes conocimientos en todo lo relacionado con la tecnología.

Una introducción formal:

Hola, soy Liling. Durante el día, soy un científico aplicado en Amazon y después del trabajo, codifico código abierto y escribo artículos tecnológicos sobre el proceso del lenguaje natural y, a veces, artículos sobre la cultura pop de los juegos.

Es un placer y un honor ser nominado en la categoría de Colaborador del año de Hackernoon para el Procesamiento del lenguaje natural (NLP) y si ha disfrutado del contenido de NLP o Traducción automática que he estado compartiendo, ayúdeme a aplastar el botón de votar en https: //www.noonies.tech/2022/programming/2022-hackernoon-contributor-of-the-year-natural-language-processing

Para celebrar la nominación, estoy escribiendo este artículo en un formato de preguntas y respuestas tipo "Ask Me Anything".

Como escritor de tecnología, me encanta compartir las tecnologías emergentes en el aprendizaje automático y tengo una especial debilidad por las tecnologías relacionadas con el lenguaje y la traducción. Para celebrar la nominación, estoy escribiendo este artículo en un formato de preguntas y respuestas tipo "Ask Me Anything". Obtenga más información sobre mis pensamientos y opiniones sobre " ¿qué clase de científico soy?" ” en la industria de la tecnología en las siguientes secciones.

De vuelta al “trabajo más sexy del siglo XXI”

Hoy en día, la descripción del trabajo para los " científicos de datos " se presenta de diferentes formas y se incluye en general en estas categorías:

Científico de datos
Investigador científico
científico aplicado
Ingeniero de datos
Ingeniero de investigación
Ingeniero de aprendizaje automático (ML)

Si le pregunta a alguien sobre la diferencia entre el rol y las responsabilidades de los diferentes títulos de trabajo, lo más probable es que termine con una línea vaga que delinea cada uno de ellos.

Si le pregunta a alguien sobre la diferencia entre el rol y las responsabilidades de los diferentes títulos de trabajo, lo más probable es que termine con una línea vaga que delinea cada uno de ellos. En realidad, suele ser un ámbito de trabajo difuso que se superpone y difiere según las definiciones de funciones de la empresa y del equipo. La principal diferencia generalmente surge entre los roles de "Científico" e "Ingeniero", donde generalmente se espera que el científico se centre más en el lado de la calidad de los datos y el modelo, mientras que el ingeniero se centra más en la integridad del modelo y la confiabilidad del servicio.

P: ¿Qué datos o calidad del modelo?

Esto suele ser responsabilidad de los " científicos ". En la industria, esto es específico para las diferentes tareas y aplicaciones que el equipo apoya y/o desarrolla. Es similar a los investigadores académicos que construyen el modelo de aprendizaje automático, pero la practicidad de si el modelo final es utilizable generalmente supera la necesidad de superar los resultados de vanguardia en la industria.

Las tareas de calidad de datos generalmente involucran:
- ¿Qué datos de fuente abierta puede usar para entrenar/mejorar el modelo?
- ¿Quién posee las fuentes de datos internas que puede usar para entrenar/mejorar el modelo?
- ¿Cómo extraer, transformar, almacenar y cargar los datos para ajustar el modelo?
- ¿Cómo mejorar la calidad y el tamaño de los datos?

Las tareas de calidad del modelo generalmente implican:
- Encontrar el algoritmo correcto o la arquitectura de red para usar para resolver la tarea
- Definición/refinación del marco de evaluación utilizado para evaluar la tarea/aplicación
- Mejorar el rendimiento del modelo basado en una métrica/marco de evaluación definido
- Optimización de la compensación de velocidad y rendimiento del algoritmo para que el modelo se pueda utilizar en producción

P: ¿Qué es la integridad del modelo y la confiabilidad del servicio?

Esto suele ser responsabilidad de los " ingenieros ". La confiabilidad es fundamental para cualquier aplicación moderna de aprendizaje automático en la actualidad. Es importante asegurarse de que los esfuerzos de emisión de carbono de los científicos para producir el mejor modelo para los clientes/usuarios produzcan el rendimiento esperado en la producción.

La declaración de un científico “ funciona en mi computadora portátil ” es inaceptable en la industria y los ingenieros ayudan a hacer realidad el sueño de “ funciona en cualquier lugar ”.

Las tareas de integridad del modelo generalmente implican:
- Creación y mantenimiento del marco para automatizar el entrenamiento y la implementación de modelos
- Asegurarse de que las características/mejoras realizadas en proyectos experimentales estén disponibles en los modelos de producción
- Mejoras incrementales para automatizar las configuraciones experimentales para reducir/eliminar los pasos manuales para llevar el modelo de los científicos a producción.
Las tareas de confiabilidad del servicio generalmente involucran:
- Configurar alertas y monitorear el uso de la aplicación de los usuarios y si/cuando el modelo de aprendizaje automático falla/se rompe
- Especificar y limitar el acceso de los usuarios al modelo para cumplir con las regulaciones internas/nacionales/regionales
- Hacer que el servicio sea accesible para el aumento de usuarios y carga

En la actualidad, a veces estas responsabilidades de ingeniería se conocen como operaciones de aprendizaje automático (MLOps). Chip Huyen tiene una buena publicación de blog que ofrece una descripción general de MLOps para los aspirantes a ingenieros de ML/datos/investigación.

Hay muchas otras definiciones de lo que hacen los científicos/ingenieros de aprendizaje automático, datos, investigación aplicada, pero la anterior es de mi experiencia personal en la industria.

P: ¿Debo optar por científico o ingeniero?

¡Eso depende! Y como se discutió anteriormente, varía de una compañía a otra y todos siempre deben preguntarle al gerente de contratación sobre las responsabilidades esperadas durante el proceso de solicitud de empleo.

Un buen científico debería poder hacer algunas tareas de ingeniería. Viceversa, un buen ingeniero debería poder construir algunos modelos de aprendizaje automático.

Personalmente, como científico, estos son mis consejos que doy a los científicos aspirantes/nuevos:

Saber algo de ingeniería backend/frontend ayuda
Sepa lo que es posible, lo que es fácil, lo que es difícil para los ingenieros
Aprenda de los ingenieros (acopladores, bases de datos, nube, diseño/desarrollo de aplicaciones)
Y deja que los ingenieros aprendan lo que haces

Y una nota final que siempre trato de recordarme,

P/D: Un ingeniero podría entrenar un modelo mejor que un científico.

P: Hablemos de la práctica, ¿hay alguna diferencia entre Datos, Investigación o Científico Aplicado?

En cuanto a los roles y la responsabilidad, son similares, pero en términos prácticos, algunas empresas pueden tener una demarcación clara entre los diferentes puestos de científicos, por lo que siempre como personal de recursos humanos (RR. HH.) o gerente de contratación si es posible compartir las " directrices de roles " específicas para el puesto al que se postula y es especialmente importante comprender las expectativas de su puesto una vez que se haya unido a la empresa y al equipo .

P: Sí, todo eso es agradable y bueno sobre la tecnología, la carrera, cuénteme más sobre la diferencia ($$$ de diferencia en términos prácticos) para datos, investigación o ciencia aplicada.

Personalmente, soy un " práctico " en la mayoría de los casos, pero cuando se trata de "la masa", https://www.levels.fyi/ y preguntar a amigos/seniors en las empresas es su mejor opción para saber más sobre la empresa. y su compensación.

Mi opinión personal:

“No lo hagas por el dinero” está sobrevalorado. Hazlo por el amor de hacerlo. Disfruto mirando los números y los datos del idioma, por lo tanto, la PNL. Pero recuerda que te pagan lo suficiente por hacerlo =)

A partir de la discusión sobre la carrera, ¡ahora la parte tecnológica!

He discutido las diferencias entre científicos e ingenieros en el campo del aprendizaje automático y ahora intentaré responder una pregunta apremiante que casi todos los científicos harían:

P: Tengo un problema X, ¿qué herramienta/método Y para resolverlo?

Esta suele ser la peor forma de preguntas de StackOverflow según la guía " Cómo hacer una buena pregunta ", pero creo que es algo que la comunidad debería tratar de responder siempre que podamos.

Mi opinión personal:

No hay una pregunta "mala" o "necesita más enfoque" para estas preguntas prácticas. Pero inevitablemente a veces atrae publicidad maliciosa de productos/tecnología.

Aquí está mi enfoque de 10 pasos para responder al problema X, enfoque Y, como " científico ",...

Revisión de literatura
1. Cuanto más lees, más herramientas tienes a mano
2. Pero limite su tiempo para evitar madrigueras de conejos, tal vez intente " Paper-Blitzing " =)
Sepa cuáles son los conjuntos de datos disponibles y qué hay en ellos (ruido, peculiaridades, etc.)
Encuentre en qué métrica de evaluación suele evaluarse la tarea X
Rastree la cita relevante más antigua de la tarea , lea ese documento
Encuentre el artículo más citado para la tarea , utilícelo como referencia
1. Siempre que sea posible, busque los conjuntos de datos en el artículo más citado y el artículo más reciente y brillante.
Defina sus criterios de éxito para la tarea industrialmente (puede que no sea la métrica de evaluación estándar para la tarea)
Intente replicar o reimplementar la línea de base
Comunique su modelo/bibliotecas a los ingenieros . ¿Puede su ingeniero producirlo?
¿La línea de base cumplió con los criterios de éxito? Pregúntele a la parte interesada del negocio/proyecto si es suficiente
¡Constrúyelo, pruébalo, rómpelo, repite!

P: Un momento, ¿eso significa que no hay "un verdadero algoritmo/herramienta Y" que pueda aprender para resolver la tarea X?

Sí, no lo hay.

Por experiencia personal, la herramienta/modelo que llega a manos de sus clientes generalmente depende en gran medida de los pasos 6 a 9 del enfoque descrito anteriormente.

P: ¿Qué sigue en Machine Learning y NLP (que personalmente le entusiasma)?

Por el momento, estoy pasando mi tiempo libre aprendiendo sobre Huggingface 🤗 y no solo sobre cómo usar los diferentes componentes de la biblioteca, sino más aún para entender qué características hacen que sea un éxito y cuál es el factor X que hizo que ganara tracción. en la comunidad de aprendizaje automático.

Y lo siguiente en lo que invertiría mi tiempo es en ML cuántico, si tengo aún más tiempo =)

¡Hasta luego y gracias por el pescado!

Espero que las preguntas y respuestas anteriores le den algunas ideas sobre " qué tipo de científico soy ". Y si hay más preguntas candentes que quieras hacer, no dudes en dejar un comentario debajo de la publicación.

Finalmente, quiero agradecer enormemente a la comunidad, el personal y los patrocinadores de HackerNoon por la nominación a los premios Noonie y, si disfruta este artículo, ayude a romper el botón de votación en https://www.noonies.tech/2022/programming/2022- hackernoon-colaborador-del-año-procesamiento-del-lenguaje-natural

¿Qué tipo de científico eres?

Demasiado Largo; Para Leer

¿Por qué estás escribiendo este artículo?

De vuelta al “trabajo más sexy del siglo XXI”

P: ¿Qué datos o calidad del modelo?

P: ¿Qué es la integridad del modelo y la confiabilidad del servicio?

P: ¿Debo optar por científico o ingeniero?

P: Hablemos de la práctica, ¿hay alguna diferencia entre Datos, Investigación o Científico Aplicado?

P: Sí, todo eso es agradable y bueno sobre la tecnología, la carrera, cuénteme más sobre la diferencia ($$$ de diferencia en términos prácticos) para datos, investigación o ciencia aplicada.

A partir de la discusión sobre la carrera, ¡ahora la parte tecnológica!

P: Tengo un problema X, ¿qué herramienta/método Y para resolverlo?

Aquí está mi enfoque de 10 pasos para responder al problema X, enfoque Y, como " científico ",...

P: Un momento, ¿eso significa que no hay "un verdadero algoritmo/herramienta Y" que pueda aprender para resolver la tarea X?

Sí, no lo hay.

P: ¿Qué sigue en Machine Learning y NLP (que personalmente le entusiasma)?

¡Hasta luego y gracias por el pescado!

About Author

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN...

Categories

Trending Topics

¿Qué tipo de científico eres?

Demasiado Largo; Para Leer

¿Por qué estás escribiendo este artículo?

De vuelta al “trabajo más sexy del siglo XXI”

P: ¿Qué datos o calidad del modelo?

P: ¿Qué es la integridad del modelo y la confiabilidad del servicio?

P: ¿Debo optar por científico o ingeniero?

P: Hablemos de la práctica, ¿hay alguna diferencia entre Datos, Investigación o Científico Aplicado?

P: Sí, todo eso es agradable y bueno sobre la tecnología, la carrera, cuénteme más sobre la diferencia ($$$ de diferencia en términos prácticos) para datos, investigación o ciencia aplicada.

A partir de la discusión sobre la carrera, ¡ahora la parte tecnológica!

P: Tengo un problema X, ¿qué herramienta/método Y para resolverlo?

Aquí está mi enfoque de 10 pasos para responder al problema X, enfoque Y, como " científico ",...

P: Un momento, ¿eso significa que no hay "un verdadero algoritmo/herramienta Y" que pueda aprender para resolver la tarea X?

Sí, no lo hay.

P: ¿Qué sigue en Machine Learning y NLP (que personalmente le entusiasma)?

¡Hasta luego y gracias por el pescado!

About Author

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN...

HISTORIAS RELACIONADAS

Categories

Trending Topics