Phd 'Supervised Learning For Virtualization Infrastructure Availability H/F - Orange
- CDD
- Orange
Les missions du poste
L'ambition de la Division Innovation est de porter plus loin l'innovation d'Orange et de renforcer son leadership technologique, en mobilisant nos capacités de recherche pour nourrir une innovation responsable au service de l'humain, éclairer les choix stratégiques du Groupe à long terme et influencer l'écosystème digital mondial.
La division Innovation rassemble, dans le monde, 6000 salariés dédiés à la recherche et l'innovation dont 740 chercheurs.
Au sein de l'entité Innovation, dans la direction CISS (Cloud Infrastructure Solutions and Services) qui a pour mission de fournir le cloud privé pour les filiales d'Orange et qui regroupe 180 ingénieurs en France, Roumanie et en Inde, vous serez intégré(e) à l'équipe NAVI en charge des études sur l'évolution des méthodes de déploiement automatisé des infrastructures d'hébergement pour la virtualisation des fonctions réseau. Elle comprend des ingénieurs de recherche à la pointe sur le développement logiciel en open source en lien avec la Fondation Linux Europe, sur la performance et l'efficacité énergétique du hardware en lien avec des fabricants de matériel informatique. Elle comprend également des architectes réseau et des intégrateurs mettant en oeuvre des plateformes expérimentales et assurant un support pour la mise en production dans les filiales d'Orange.L'hébergement d'applications sensibles aux interruptions sur des datacenters distribués, également connu sous le terme " edge computing ", requiert une compréhension approfondie des risques de défaillance afin de mettre en place des mécanismes de résilience adaptés [1]. L'orchestrateur de conteneurs de virtualisation Kubernetes associé à une architecture de monitoring Prometheus peut limiter les temps d'interruption à quelques secondes lors d'une panne grâce à des mécanismes de reconstruction automatique [2], [3]. Pour ramener ce délai à moins d'une seconde, il est nécessaire de déployer des ressources de secours de manière anticipée sur d'autres sites de virtualisation [4]. Le calcul du nombre requis de sites [5] dépend cependant de la connaissance de la disponibilité de chacun d'entre eux, c'est-à-dire du rapport entre la durée où le service est réellement actif et la durée d'observation. Le développement récent de Jumeaux Numériques [6] pour l'exploitation automatisée des réseaux d'infrastructure offre une opportunité pour mettre en application une méthode de calcul automatique de cet indicateur de disponibilité.
L'objectif de cette thèse est de modéliser la statistique des défaillances des éléments d'infrastructure et de développer un apprentissage supervisé de paramètres du modèle, dans le but de construire, pour un Jumeau Numérique, un indicateur de disponibilité par site de virtualisation.
Verrous
1) Identifier les états dégradés d'une infrastructure de virtualisation.
2) Identifier les informations pertinentes permettant de caractériser ces états dégradés.
3) Construire et entrainer un modèle permettant de prédire l'occurrence d'une prochaine défaillance sur un site de virtualisation afin de calculer un indicateur de disponibilité.
4) Prototyper le déploiement du modèle dans une chaîne de mesure temps réel Prometheus.
Références
[1] T. Chalermarrewong, Failure Prediction of Data Centers Using Time Series and Fault Tree Analysis. 2012
[2] A. Samir, Self-Adaptive Healing for Containerized Cluster Architectures with Hidden Markov Models, 2019
[3] D. Tazzioli, Stateful Service Migration Support for Kubernetes-based Orchestration in Industry 4.0, 2024
[4] K. Sayad, Dynamic Orchestration of Communication Resources Deployment for Resilient Coordination in Critical Infrastructures Network, 2021
[5] I. Narayanan, Right-sizing Geo-distributed Data Centers for Availability and Latency, 2017
Le profil recherché
Compétences (scientifiques et techniques) et qualités personnelles exigées par le poste
Bonnes connaissances en mathématiques appliquées (apprentissage automatisé, calcul de disponibilité, calcul de complexité algorithmique, ...).
Formation demandée (master, diplôme d'ingénieur, doctorat, domaine scientifique et technique ...)
Master dans le domaine de l'informatique et algorithmique.
Expériences souhaitées (stages, ...)
Une expérience comme un stage en recherche dans le domaine des réseaux de télécommunication ou des systèmes informatiques et la connaissance de l'environnement Kubernetes serait un plus.