première édition, ce qui nous permet de mener une comparaison entre les millésimes. Et de fait, beaucoup de choses ont changé, et pas seulement l’affluence (c’était complet).
D’abord, l’année dernière nous avait surpris par son discours très centré sur l’offre d’Hortonworks. On parlait entre nous du “Hortonworks Summit”. Rien de tel cette année : hormis quelques keynotes l’accent était bien plus mis sur la communauté. D’autres éditeurs, tels Cloudera et MapR, étaient sponsors platinum et présentaient des sessions comme n’importe quel autre acteur. Une bonne surprise, donc, quoique logique puisque en cohérence avec la stratégie affichée d’Hortonworks de contribuer à la communauté. Dans l’ensemble les sessions mélangeaient des éditeurs, des utilisateurs Hadoop (finaux ou gros contributeurs), des partenaires technologiques, en proportion harmonieuse.
Deuxième impression, celle de la maturité grandissante d’Hadoop. La plateforme n’est pas encore adulte, disons qu’elle est en train de terminer son adolescence. Des concepts encore théoriques l’année dernière, comme le data lake ou le multi-tenant, sont maintenant à portée de main grâce aux releases basées sur Hadoop 2 et YARN. Les retours d’expérience s’empilent, et les architectures de référence émergent. Et surtout, cela commence à être bien outillé ! C’est ce qu’on observe aussi chez OCTO, sur le marché français : les POC commencés l’année dernière rentrent en phase d’industrialisation.
Enfin (mais ça ce n’est pas un changement), on est bien traités :-) Que ce soit le lieu de l’événement, les repas ou la petite soirée de mi-salon, tout est au top !
Voilà pour ces impressions très générales. Place maintenant à un compte-rendu des sessions qui nous ont le plus marqués. Nous sommes loin d’avoir tout vu, avec 5 tracks en parallèle c’était bien sûr impossible. Heureusement, les slides (et quelques vidéos) devraient rapidement être publiés par les organisateurs.
Nous vous proposons un découpage en 3 articles, pour faciliter la lecture :
Si vous n’avez le temps que de lire 2 articles, choisissez les deux premiers (celui-ci et le suivant).
(Arun Murthy, Hortonworks)
Cette session fait un état des lieux des nouveautés apportées par les dernières versions d’Hadoop 2, qui vont progressivement faire leur chemin dans les distributions.
Au niveau du coeur d’Hadoop, on retiendra :
Du côté de l’écosystème logiciel, ce sont soit des améliorations apportées à l’existant, soit l’intégration d’outils tiers dans le cadre maintenant généraliste apporté par YARN. La liste que l’on trouvera ci-dessous est en fait la roadmap Hadoop d’Hortonworks pour 2014, et elle est à prendre comme telle :
Les projets Falcon et Knox en sont à leurs premières versions, ils devront bien sûr faire leurs preuves et continuer de s’enrichir au gré des releases.
L’intégration de Solr est une surprise car on attendait plutôt ElasticSearch, conformément au partenariat annoncé il y a quelques semaines. En fait l’intégration complète d’ElasticSearch est reportée sine die, pour des raisons de stratégie commerciale divergente entre les deux partenaires. Le connecteur existant reste utilisable, mais sans support de la part d’Hortonworks. Il permet de déployer des shards ES sur des data nodes Hadoop, profitant ainsi de la colocalisation pour faire du MapReduce, du Hive, du Pig, ...
Quelques annonces ont été faites pour une vision à plus long terme. Retenons en particulier la prise en compte du stockage hétérogène (disque mécanique, SSD, …, information utilisée par le gestionnaire de ressources), et le projet Slider visant à exécuter sur YARN des services de longue durée (comme HBase, ainsi que le prévoyait le projet HOYA dont Slider est une généralisation à d’autres services).
Bref, 2014 sera riche et verra les distributions Apache et HDP se rapprocher de ses concurrents, en termes de fonctionnalités “entreprise” comme le DRP ou la gouvernance de la donnée.