Apprentissage par renforcement pour l'allocution de ressources dans un cluster HPC

J’ai étudié le problème d’allocution de ressources dans un cluster HPC pendant un stage de M2 de 4 mois (avril à juillet 2020) dans l’entreprise Bull (filliale d’Atos) à Échirolles, au sein de l’équipe Cognitive DataCenter.

Ordonnanceur dans un cluster de calcul

Les clusters de calculs (High Performance Computing) sont des gros centres de calculs composés de puissants processeurs. Les utilisateurs peuvent y soumettre des jobs nécessitant de nombreuses ressources de calculs.

Cependant, le nombre de noeuds de calcul étant très important, il faut être capable de placer les jobs des utilisateurs dans le cluster de la manière la plus efficace possible, c’est-à-dire qui permette d’effectuer les jobs le plus rapidement possible. Les algorithmes d’ordonnanceur actuels sont déterministes et suivent des règles empiriques définies par le régulateur du cluster.

Apprentissage par renforcement

L’idée du stage est d’utiliser le potentiel de l’intelligence artificielle en modélisant le problème d’ordonnancement sous forme d’un problème d’apprentissage par renforcement.

L’apprentissage par renforcement (Reinforcement Learning) consiste à faire interragir un agent avec un environnement aléatoire dans le but d’apprendre par lui-même les bonnes actions à prendre. L’agent choisit à chaque étape une action possible en fonction de l’état courant de l’environnement, auquel l’environnement retourne une récompense représentant la qualité de l’action choisir et un nouvel état qui dépend de cette action. L’objectif de l’agent est alors de maximiser la somme des récompenses.

Dans ce stage, je propose un modèle que j’implémente en utilisant un simulateur d’ordonnanceur. Dans un cadre simplifié, des expériences sont réalisées afin de fournir une preuve de concept.

Antoine BARRIER
Antoine BARRIER
Post-Doctorant en imagerie médicale

Je m’intéresse à des techniques d’analyse d’images médicales IRM et à des algorithmes d’optimisation en apprentissage séquentiel.