Sujets

View

View Item

Domain Parallelism-High Performance Computing-Grid
Domain - extra HPC
Year 2014
Starting september 2014
Status Open
Subject Tolérance aux fautes pour des algorithmes en calcul intensif
Thesis advisor BEAUQUIER Joffroy
Co-advisors Laura GRIGORI
Janna BURMAN
Laboratory LRI ParSys
Collaborations
Abstract Ce sujet de these s'inscrit dans une activite de recherche plus large qui vise a developper des algorithmes en calcul intensif robustes et scalables pour des machines massivement paralleles. L'objectif de cette these est de proposer des algorithmes paralleles qui permettent de tolerer des fautes, s'attachant ainsi a adresser un defi majeur en calcul haute performance.
Context Les machines massivement paralleles ont des architectures tres complexes, et sont formes par des milliers de processeurs multicoeurs et accelerateurs. La plupart des algorithmes actuels ne sont pas capables d'exploiter efficacement ces architectures. Des defis majeurs dans ce domaine sont le coût élevé des communications par rapport au coût des calculs et le taux de defaillances tres élevés de ces machines peta/exaflopiques. Avec des superordinateurs
composes de plus d'un million de coeurs, le temps entre deux pannes devient si important que les simulations numeriques peuvent ne pas pouvoir abooutir a la solution recherchee.
C'est dans ce contexte de recherche que les objectifs de cette these sont definis.


Objectives La recherche qui sera effectuee pendant cette these se concentre sur le probleme de tolerance aux fautes dans le cadre des algorithmes en algebre lineaire qui minimisent les communications 3. Des solutions a ce probleme peuvent être fournis au niveau systeme en utilisant par exemple des points de sauvegarde et de reprise (checkpointing), cependant de telles solutions sont reconnues ne pas être scalables. Nous proposons de prendre en compte ce probleme egalement
au niveau des algorithmes numeriques, lorsqu'une solution adaptee peut être proposee danscertains cas.
Notre objectif est de comprendre, pour certaines methodes iteratives ainsi que des noyaux de calcul associes, quels algorithmes permettent de tolérer les défaillances sans augmenter par un facteur important les besoins en memoire ou en terme de calcul. Certaines de ces methodes utilisent deja des informations redondantes, et nous souhaitons utiliser ces informations pour tolérer des fautes.
Work program Cf. document attaché
Extra information
Prerequisite Les modules traitant du HPC et du Distributed Computing du M2R NSI, ou leurs équivalents.
Details Download sujetPhd2013_Paris11.pdf
Expected funding Institutional funding
Status of funding Expected
Candidates
user Joffroy.Beauquier
Created Tuesday 30 of April, 2013 13:22:34 CEST
LastModif Wednesday 12 of March, 2014 18:12:20 CET
Comments
Attachments (1)

Attachments

 filenamecreatedhitsfilesize 
DownloadsujetPhd2013_Paris11.pdf30 Apr 2013 13:22141937.84 Kb


The original document is available at https://edips.lri.fr/tiki-view_tracker_item.php?itemId=3148