paint-brush
Maîtriser les données en temps réel : les stratégies de Rahul Chaturvedi pour créer des plates-formes de données fiablespar@jonstojanmedia
245 lectures

Maîtriser les données en temps réel : les stratégies de Rahul Chaturvedi pour créer des plates-formes de données fiables

par Jon Stojan Media5m2024/07/25
Read on Terminal Reader

Trop long; Pour lire

Rahul Chaturvedi est ingénieur logiciel chez Uber Technologies Inc. Il a été à l'avant-garde de l'optimisation de l'un des plus grands déploiements Kafka au monde. Son travail répond aux besoins immédiats du traitement des données en temps réel et jette les bases d’écosystèmes d’IA robustes.
featured image - Maîtriser les données en temps réel : les stratégies de Rahul Chaturvedi pour créer des plates-formes de données fiables
Jon Stojan Media HackerNoon profile picture
0-item
1-item



La technologie force sans relâche les industries à évoluer. Concernant le big data, l’apprentissage automatique et l’intelligence artificielle, le traitement et l’analyse d’énormes volumes de données en temps réel sont devenus un avantage concurrentiel essentiel pour toutes les entreprises. Cependant, la création et la maintenance de plateformes de données fiables, capables de gérer une telle ampleur, présentent de formidables défis. Aujourd’hui plus que jamais, les ingénieurs logiciels doivent être des penseurs créatifs et des innovateurs.


Rahul Chaturvedi , ingénieur logiciel chez Uber Technologies Inc., est un excellent exemple de la capacité de résolution de problèmes que ces défis exigent. Ses approches innovantes en matière d’infrastructure de données répondent aujourd’hui à toutes les normes d’avenir du secteur technologique.


Avec près de deux décennies d'expérience en ingénierie logicielle, Chaturvedi s'est imposé comme une autorité dans le domaine du Big Data, des technologies de streaming et de l'infrastructure cloud. Son expertise, perfectionnée grâce à ses fonctions auprès de géants de l'industrie et renforcée par ses réalisations académiques à l'IIT Kharagpur et à l'Université de Washington, a joué un rôle déterminant dans la résolution de certains des défis les plus complexes en matière de données auxquels les entreprises technologiques modernes sont confrontées.


Chez Uber, Chaturvedi a été à l'avant-garde de l'optimisation de l'un des plus grands déploiements Kafka au monde, un système qui traite quotidiennement des milliards de messages et des pétaoctets de données. Son travail répond aux besoins immédiats du traitement des données en temps réel et jette les bases d’écosystèmes d’IA robustes capables d’évoluer efficacement dans les environnements cloud.

L'ampleur du défi : l'écosystème de données d'Uber

Pour vraiment apprécier l’importance des contributions de Rahul Chaturvedi, il faut d’abord saisir l’ampleur de l’écosystème de données d’Uber. En tant que l'une des principales plateformes de transport au monde, les opérations d'Uber génèrent un volume astronomique de données : des milliards de messages par jour, ce qui équivaut à des pétaoctets d'informations qui doivent être traitées, analysées et traitées en temps réel.


Ce déluge de données provient de diverses sources : demandes de courses, emplacements des chauffeurs, conditions de circulation, transactions de paiement et d'innombrables autres points de données du réseau mondial de services d'Uber. Chaque flux de données est essentiel aux opérations de l'entreprise, alimentant les systèmes qui alimentent tout, depuis les algorithmes de tarification dynamique jusqu'à l'optimisation des itinéraires et la détection des fraudes.


La complexité du paysage des données d'Uber est encore aggravée par plusieurs facteurs, notamment les exigences de traitement en temps réel, la distribution mondiale des données, une évolutivité transparente sans compromettre les performances ou la fiabilité, et la rentabilité. Le défi de Chaturvedi consistait à maintenir ce système et à améliorer ses performances tout en le préparant à une migration importante vers le cloud. Cela nécessitait des approches innovantes pour résoudre des problèmes de longue date dans les systèmes distribués et l'ingénierie des données - des solutions qui devraient fonctionner à une échelle sans précédent.

Innover sur les solutions : stratégies d'optimisation Kafka

Une grande partie du travail de Rahul Chaturvedi chez Uber a été définie par son approche innovante d'optimisation de Kafka, une plateforme de streaming distribuée qui constitue l'épine dorsale de l'infrastructure de traitement de données en temps réel d'Uber. L'une des contributions les plus importantes de Chaturvedi a été de diriger les efforts visant à colocaliser Kafka avec d'autres technologies sur le même hôte. En raison de la nature critique de la technologie, cette démarche n’avait jamais été tentée auparavant chez Uber. Cette stratégie était cruciale pour permettre la migration vers le cloud d'Uber tout en optimisant les coûts.


La colocalisation a introduit de nouveaux défis, notamment le problème du « voisin bruyant », où un service pouvait potentiellement avoir un impact sur les performances des autres sur le même hôte. D'autres défis incluaient des contraintes de ressources et des problèmes de version du noyau, mais Chaturvedi a travaillé avec diverses équipes pour résoudre ces problèmes.


Les résultats de ces efforts d’optimisation ont été significatifs. Non seulement ils ont ouvert la voie à une migration fluide vers le cloud, mais ils ont également conduit à des améliorations substantielles de l’efficacité et de la fiabilité du système. On estime que la stratégie de colocalisation à elle seule permettra à Uber d’économiser des millions de dollars par an en coûts d’infrastructure.

Résultats d’avenir : créer des écosystèmes d’IA robustes

Le travail de Rahul Chaturvedi chez Uber va au-delà de l'optimisation de Kafka et de la gestion de la migration vers le cloud. Ses efforts ont joué un rôle déterminant dans la création d'un écosystème robuste qui prend en charge les vastes initiatives d'Uber en matière d'IA et d'apprentissage automatique. L'infrastructure Kafka optimisée permet l'ingestion et la distribution de flux de données massifs nécessaires à la formation et à l'alimentation de données en direct aux modèles d'IA, et elle peut gérer les exigences de volume de données variables et souvent imprévisibles des différents modèles de ML et processus de formation.


Outre Kafka, le travail de Chaturvedi consistait à intégrer Redis dans l'infrastructure de données d'Uber. Cela permet aux équipes ML/IA de mettre en cache les données fréquemment consultées ou les fonctionnalités prétraitées, améliorant ainsi considérablement l'efficacité des modèles d'IA pendant la formation et l'inférence. En utilisant stratégiquement Redis aux côtés de Kafka, l'équipe de Chaturvedi a créé un système qui fournit un accès à très faible latence aux données critiques essentielles aux applications d'IA en temps réel.


La combinaison harmonieuse de Redis avec une infrastructure Kafka efficacement colocalisée est exactement le genre d’innovation tournée vers l’avenir à laquelle les ingénieurs devraient aspirer. Le travail de Chaturvedi jette les bases des avancées futures des capacités d'IA d'Uber grâce à une plate-forme de données conçue avec la flexibilité nécessaire pour intégrer de nouvelles technologies et méthodologies d'IA à mesure qu'elles émergent.


Chaturvedi a joué un rôle central dans la création d'un écosystème dans lequel l'IA et le ML peuvent prospérer à l'échelle massive d'Uber grâce à son travail sur Kafka, Redis et l'infrastructure globale des données.

Impact sur l'industrie : l'ingénierie du futur

Contributions de Rahul Chaturvedi à l'infrastructure de données d'Uber ont eu des implications considérables pour l'entreprise et l'industrie technologique dans son ensemble. La colocalisation de Kafka avec d’autres technologies devrait permettre à Uber d’économiser des millions de dollars par an en coûts d’infrastructure. La réduction de la latence dans les clusters Kafka critiques a amélioré la réactivité globale du système, ce qui a un impact direct sur l'expérience utilisateur. L'infrastructure optimisée peut désormais gérer plus efficacement les énormes volumes de données quotidiens d'Uber (des milliards de messages).


L'importance de L'œuvre de Chaturvedi n'est pas passé inaperçu. Il a reçu trois très convoités « Search Storage Data (SSD) Impact Awards » en 2023 chez Uber Technologies Inc., et ses approches innovantes ont attiré l'attention de la communauté technologique, le positionnant comme un leader d'opinion dans le domaine du Big Data et des infrastructures.


Le travail de Rahul Chaturvedi chez Uber est un excellent exemple du rôle essentiel que joue l'ingénierie des données innovante dans les entreprises technologiques modernes. Ses stratégies visant à créer des plates-formes de données fiables, évolutives et efficaces ont résolu des défis immédiats et positionné Uber à l'avant-garde des technologies Big Data et IA. Des solutions comme celles-ci, qu’elles soient menées à grande échelle comme Uber ou à plus petite échelle par des startups et des petites entreprises ambitieuses, inspireront de nouvelles technologies et de nouvelles stratégies dans les décennies à venir.


Divulgation des intérêts acquis : cet auteur est un contributeur indépendant qui publie via notre programme de blogs d'affaires. HackerNoon a examiné la qualité du rapport, mais les affirmations contenues dans le présent document appartiennent à l'auteur. #DYOR.