Résumé:
Face aux exigences nouvelles des entreprises (quantité massive de données, variété
de données, multitudes de sources hétérogènes de données, etc.), les technologies
traditionnelles utilisées pour l’intégration, le traitement, le stockage et l’analyse de
données massives atteignent désormais leurs limites. Et c’est la cause essentielle de
l’apparition d’un nouveau concept qui est le Big data.
Ce travail consiste à présenter la plateforme la plus populaire dans le monde du Big
Data "Hadoop" avec son système de fichier HDFS, son modèle de traitement MapReduce
et son gestionnaire de ressources Yarn. Ensuite, à décrire et présenter le problème de
performance d’Hadoop dans un milieu hétérogène de machines et trouver des solutions
appropriées.
L’application consiste à construire un cluster de plusieurs machines et tester les
solutions proposées avec une application Java Swing qui extrait des statistiques
météorologiques depuis la base de données du NCDC.