Le test de performances est un élément incontournable des mises en production.
De bons tests de performances permettent en effet :
Hadoop n'est pas une application web, une base de données ou encore un webservice. Avec Hadoop, on ne teste pas les performances d'un job sous une haute charge d'utilisation. Au lieu de cela, il est plus pertinent d'effectuer un benchmark, c'est à dire de tester l'ensemble des composants du cluster Hadoop pour différents profils d'utilisation.
Intel a sorti, il y a quelques temps, un outil permettant de faire des benchmarks d'un cluster Hadoop. C'est de ce dernier, HiBench, dont nous faisons un retour d'expérience ici.
HiBench est un ensemble de scripts shells publiés sous Apache Licence 2 disponible sur GitHub : https://github.com/intel-hadoop/HiBench
Il permet de tester un cluster Hadoop selon plusieurs profils d'utilisation.
Ce test distribue un comptage des mots d'une source de données.
Cette source est générée par un script de préparation de HiBench utilisant le randomtextwriter d'Hadoop.
Il représente une classe de jobs qui extrait un petit sous ensemble de données d'une source plus conséquente.
Ce test est de type CPU bound.
Ce test distribue le tri d'une source de données.
Cette source est générée par un script de préparation de HiBench utilisant le randomtextwriter d'Hadoop.
Le test en lui même est le plus simple que l'on puisse imaginer. En effet, les phases de Map et de Reduce sont des fonctions identités, la capacité de tri des données sources étant induite lors de la phase de Shuffle & Merge de MapReduce.
Ce test est de type I/O bound.
Ce test distribue aussi le tri d'une source de données.
Cette source est générée par le job Teragen qui génère par défaut 1 milliard de lignes de 100 octets chacune.
Ces lignes sont ensuite triées par le Terasort. Contrairement au Sort, le Terasort défini ses propres formats d'entrée, de sortie et le Partitioner lequel s'assure que les clés sont réparties le plus uniformément possible entre les partitions, assurant in fine une répartition plus équitable du travail entre tous les mappers.
C'est donc un Sort amélioré visant à garantir une utilisation uniforme du cluster lors du test.
De part cette spécificité, ce test est de type :
Ce test est dédié à HDFS. Il a pour objectif de mesurer l'I/O et la bande passante agrégée lors de l'utilisation d'HDFS.
Dans sa phase préparatoire, il génère de la donnée et dépose des fichiers sur HDFS.
Ensuite, deux tests sont exécutés :
Le test d'écriture est globalement la même chose que la phase préparatoire de lecture.
Ce test est de type I/O bound.
Ce test permet de mesurer les performances du cluster pour des tâches d'indexation.
Pour ce faire, une phase préparatoire génère des données à indexer.
Ensuite, l'indexation est effectuée au moyen d'Apache Nutch.
Ce test est de type I/O bound avec une forte utilisation du CPU en map.
Ce test permet de mesurer les performances du cluster pour des tâches de PageRanking.
Là encore, une phase préparatoire génère le graphe de données à traiter au moyen de l'algorithme du PageRank.
Ensuite, le traitement a proprement parler est effectué par une suite de 6 jobs MapReduce.
Ce test est de type CPU bound.
Ce test effectue une classification probabilistique sur un jeu de données.
Il a été expliqué en détails dans cet article.
La phase préparatoire génère ce jeu de données.
Ensuite, le test lance deux jobs MapReduce au travers de Mahout:
Ce test est de type I/O bound mais présente toutefois une très forte utilisation du CPU durant le map du seq2sparse.
Il est à noter qu'à l'utilisation, nous n'avons pas pu observer de réelle charge sur ce test. Il semblerai en effet qu'il soit nécéssaire soit d'apporter son propre jeu de données soit d'augmenter considérablement la taille du jeu de données généré pour que cela charge réellement un cluster.
Ce test classifie un jeu de données et permet de visualiser le niveau de représentation des classes ainsi que leur distances les unes aux autres.
La phase préparatoire génère le jeu de données.
Ensuite, l'algorithme est lancé sur ce jeu de données au travers de Mahout.
L'algorithme des k-moyennes est composé de deux phases distinctes :
A chacune de ces deux phases correspondent des jobs MapReduce et un profil d'utilisation des ressources différents.
Cette catégorie de tests correspond au requêtage que font traditionnellement les analystes métier.
Les données d'entrées sont là encore générées par une phase préparatoire.
Deux tables sont créées :
Un shéma que l'on pourrait retrouver sur un site web pour de l'analyse de traffic donc.
Une fois les données sources générées, deux requêtes Hive sont lancées :
Ces tests sont de type I/O bound.
Lancer HiBench n'est pas particulièrement compliqué, il suffit de :
A partir de là, le fichier bin/hibench-config.sh contient les options utiles à changer tel que le répertoire HDFS où écrire les résultats, le fichier de rapport à écrire (sur le FS local), ...
Une fois que tout cela est configuré et que le répertoire d'entrée sur HDFS existe, il suffit de lancer bin/run-all.sh et d'aller prendre un café... ou deux.
Les résultats sont écrits dans le fichier hibench.report dans le format CSV suivant :
_test_name end_date <jobstart_timestamp,jobend__timestamp> size_in_bytes duration_ms throughput
Attention, le fichier ne contient pas les entêtes décrit au dessus.
Le test DFSIO écrit en plus un CSV et une interprétation des résultats dans son sous répertoire dfsioe.
Actuellement, HiBench fonctionne sur Hadoop 1.0. Cela signifie que les dernières versions des distributions de Cloudera ou HortonWorks par exemple ne fonctionneront pas forcément avec.
Ces dernières reposent en effet sur Hadoop 2.
Cependant, l'effort de port pour supporter Hadoop 2 est mineur pour la majorité des tests puisqu'il s'agit surtout de mettre à jour des noms de paramètres de configuration.
D'autre part, HiBench ne se suffit pas à lui même. Il est nécessaire de récupérer aussi les informations du JobTracker / ResourceManager concernant les temps moyen d'execution des Map, des Reduces, des Shuffle et des Merge de chaque job afin d'obtenir des informations plus précises.
Un manque que HiBench a essayé de combler sans succès pour le moment est la construction d'un référentiel des benchmarks sur les clusters Hadoop.
L'intention est très claire lorsque l'on regarde le wiki du projet qui ne contient qu'une page invitant à déposer les résultats de tests de perfs.
Il serait intéressant qu'elle soit suivie ou qu'émerge un référentiel permettant de valider que les performances de son cluster sont dans les normes.
Une autre solution existe mais est plus focalisée sur un profil d'utilisation particulier.
GridMix est inclus dans Hadoop aux côtés des jobs d'exemple TeraSort, Sort, ...
Cependant ce dernier génère des jobs MapReduce orientés tri de large volumes de données et n'adresse donc pas par exemple l'aspect Machine Learning.
Malgré ces quelques défauts de jeunesse, HiBench simplifie grandement la conduite de benchmarks pertinents sur un cluster Hadoop.
Gageons que le domaine va se structurer sous peu avec de nouvelles solutions plus faciles à prendre en main et contenant plus de profils d'utilisation.