paint-brush
Dominar los datos en tiempo real: estrategias de Rahul Chaturvedi para crear plataformas de datos confiablespor@jonstojanmedia
245 lecturas

Dominar los datos en tiempo real: estrategias de Rahul Chaturvedi para crear plataformas de datos confiables

por Jon Stojan Media5m2024/07/25
Read on Terminal Reader

Demasiado Largo; Para Leer

Rahul Chaturvedi es ingeniero de software en Uber Technologies Inc. Ha estado a la vanguardia de la optimización de una de las implementaciones de Kafka más grandes del mundo. Su trabajo aborda las necesidades inmediatas del procesamiento de datos en tiempo real y sienta las bases para ecosistemas de IA robustos.
featured image - Dominar los datos en tiempo real: estrategias de Rahul Chaturvedi para crear plataformas de datos confiables
Jon Stojan Media HackerNoon profile picture
0-item
1-item



La tecnología es implacable a la hora de obligar a las industrias a evolucionar. En cuanto a big data, aprendizaje automático e inteligencia artificial, procesar y analizar volúmenes masivos de datos en tiempo real se ha convertido en una ventaja competitiva crítica para todas las empresas. Sin embargo, construir y mantener plataformas de datos confiables capaces de manejar tal escala presenta desafíos formidables. Ahora más que nunca, los ingenieros de software deben ser pensadores creativos e innovadores.


Rahul Chaturvedi , ingeniero de software de Uber Technologies Inc., es un excelente ejemplo de la capacidad de resolución de problemas que requieren estos desafíos. Sus enfoques innovadores para la infraestructura de datos cumplen con todos los estándares futuros de la industria tecnológica actual.


Con casi dos décadas de experiencia en ingeniería de software, Chaturvedi se ha establecido como una autoridad en big data, tecnologías de transmisión e infraestructura de nube. Su experiencia, perfeccionada a través de puestos en gigantes de la industria y reforzada por sus logros académicos en IIT Kharagpur y la Universidad de Washington, ha sido fundamental para abordar algunos de los desafíos de datos más complejos que enfrentan las empresas de tecnología modernas.


En Uber, Chaturvedi ha estado a la vanguardia de la optimización de una de las implementaciones de Kafka más grandes del mundo, un sistema que procesa billones de mensajes y petabytes de datos diariamente. Su trabajo aborda las necesidades inmediatas del procesamiento de datos en tiempo real y sienta las bases para ecosistemas de IA robustos que puedan escalar de manera eficiente en entornos de nube.

La magnitud del desafío: el ecosistema de datos de Uber

Para apreciar verdaderamente la importancia de las contribuciones de Rahul Chaturvedi, primero hay que comprender la magnitud del ecosistema de datos de Uber. Como una de las principales plataformas de transporte del mundo, las operaciones de Uber generan un volumen astronómico de datos: billones de mensajes diarios, que equivalen a petabytes de información que deben procesarse, analizarse y actuar en tiempo real.


Esta avalancha de datos proviene de diversas fuentes: solicitudes de viajes, ubicaciones de los conductores, condiciones del tráfico, transacciones de pago y muchos otros puntos de datos de la red global de servicios de Uber. Cada flujo de datos es fundamental para las operaciones de la empresa y se alimenta de sistemas que impulsan todo, desde algoritmos dinámicos de precios hasta optimización de rutas y detección de fraude.


La complejidad del panorama de datos de Uber se ve agravada por varios factores, incluidos los requisitos de procesamiento en tiempo real, la distribución global de datos, la escalabilidad perfecta sin comprometer el rendimiento o la confiabilidad y la eficiencia de costos. El desafío de Chaturvedi era mantener este sistema y mejorar su rendimiento mientras lo preparaba para una importante migración a la nube. Esto requirió enfoques innovadores para problemas de larga data en sistemas distribuidos e ingeniería de datos, soluciones que tendrían que funcionar a una escala sin precedentes.

Innovando en soluciones: estrategias de optimización de Kafka

Gran parte del trabajo de Rahul Chaturvedi en Uber estuvo definido por su enfoque innovador para optimizar Kafka, una plataforma de transmisión distribuida que forma la columna vertebral de la infraestructura de procesamiento de datos en tiempo real de Uber. Una de las contribuciones más importantes de Chaturvedi fue liderar el esfuerzo por ubicar Kafka con otras tecnologías en el mismo host. Debido a la naturaleza crítica de la tecnología, esta medida nunca antes se había intentado en Uber. Esta estrategia fue crucial para permitir la migración a la nube de Uber y al mismo tiempo optimizar los costos.


La coubicación introdujo nuevos desafíos, en particular el problema del "vecino ruidoso", donde un servicio podría potencialmente afectar el rendimiento de otros en el mismo host. Otros desafíos incluyeron limitaciones de recursos y desafíos de la versión del kernel, pero Chaturvedi trabajó con varios equipos para resolver estos problemas.


Los resultados de estos esfuerzos de optimización fueron significativos. No solo allanaron el camino para una migración a la nube sin problemas, sino que también condujeron a mejoras sustanciales en la eficiencia y confiabilidad del sistema. Se estima que la estrategia de coubicación por sí sola le ahorra a Uber millones de dólares anualmente en costos de infraestructura.

Resultados futuros: creación de ecosistemas de IA sólidos

El trabajo de Rahul Chaturvedi en Uber va más allá de optimizar Kafka y gestionar la migración a la nube. Sus esfuerzos han sido fundamentales para construir un ecosistema sólido que respalde las amplias iniciativas de inteligencia artificial y aprendizaje automático de Uber. La infraestructura optimizada de Kafka permite la ingesta y distribución de flujos de datos masivos necesarios para entrenar y alimentar datos en vivo a modelos de IA, y puede manejar los requisitos de volumen de datos variables y a menudo impredecibles de diferentes modelos de aprendizaje automático y procesos de entrenamiento.


Además de Kafka, el trabajo de Chaturvedi implicó la integración de Redis en la infraestructura de datos de Uber. Esto permite a los equipos de ML/IA almacenar en caché los datos a los que se accede con frecuencia o las características preprocesadas, lo que mejora significativamente la eficiencia de los modelos de IA durante el entrenamiento y la inferencia. Al utilizar estratégicamente Redis junto con Kafka, el equipo de Chaturvedi creó un sistema que proporciona acceso de latencia ultrabaja a datos críticos esenciales para aplicaciones de IA en tiempo real.


La combinación fluida de Redis con una infraestructura Kafka ubicada de manera eficiente es justo el tipo de innovación centrada en el futuro al que los ingenieros deberían aspirar. El trabajo de Chaturvedi sienta las bases para futuros avances en las capacidades de IA de Uber gracias a una plataforma de datos diseñada con la flexibilidad de incorporar nuevas tecnologías y metodologías de IA a medida que surjan.


Chaturvedi ha desempeñado un papel fundamental en la creación de un ecosistema donde la IA y el aprendizaje automático pueden florecer a la escala masiva de Uber a través de su trabajo en Kafka, Redis y la infraestructura de datos en general.

Impacto en la industria: la ingeniería del futuro

Contribuciones de Rahul Chaturvedi a la infraestructura de datos de Uber han tenido implicaciones de gran alcance para la empresa y la industria tecnológica en general. Se prevé que la ubicación conjunta de Kafka con otras tecnologías ahorrará a Uber millones de dólares al año en costos de infraestructura. La reducción de la latencia en clústeres críticos de Kafka ha mejorado la capacidad de respuesta general del sistema, lo que impacta directamente en la experiencia del usuario. La infraestructura optimizada ahora puede manejar los enormes volúmenes de datos diarios de Uber (billones de mensajes) de manera más eficiente.


La importancia de El trabajo de Chaturvedi. no ha pasado desapercibido. Ha recibido tres codiciados "Premios al impacto de datos de almacenamiento de búsqueda (SSD)" en 2023 en Uber Technologies Inc., y sus enfoques innovadores han llamado la atención en la comunidad tecnológica, posicionándolo como un líder intelectual en big data e infraestructura.


El trabajo de Rahul Chaturvedi en Uber es un excelente ejemplo del papel fundamental que desempeña la ingeniería de datos innovadora en las empresas de tecnología modernas. Sus estrategias para construir plataformas de datos confiables, escalables y eficientes han resuelto desafíos inmediatos y han posicionado a Uber a la vanguardia de las tecnologías de big data e inteligencia artificial. Soluciones como estas, ya sea que se lleven a cabo a escala masiva como Uber o en escalas más pequeñas por parte de nuevas empresas y pequeñas empresas ambiciosas, inspirarán nuevas tecnologías y nuevas estrategias en las próximas décadas.


Divulgación de intereses adquiridos : este autor es un colaborador independiente que publica a través de nuestro programa de blogs de negocios. HackerNoon ha revisado la calidad del informe, pero las afirmaciones contenidas en este documento pertenecen al autor. #DYOR.