Intervenants :
Marie-Luce Picard, Chef de Projet à EDF R&D
Benoît Grossin, Ingénieur de Recherche à EDF R&D
Julien Cabot, Directeur du pôle Big Data Analytics chez OCTO Technology
Rémy Saissy, Architecte chez OCTO Technology
Les slides de la présentation sont disponibles sur notre Slideshare : cliquez ici.
Un compte-rendu du petit-déjeuner est disponible ici.
Agenda:
Etat des lieux du Big Data
Les enjeux du Big Data chez EDF par EDF R&D
Retour d'expérience sur une expérimentation d'analyse d'indicateurs en temps réel avec Storm chez EDF R&D
Bilan
1) Etat des lieux du Big Data
Les pratiques et les outils associés au Big Data viennent des Géants du Web.
Le positionnement actuel d'Hadoop est sur des applications orientées stockage et programmation parallèle : c'est l'axe Big Data. Storm se positionne sur les applications orientées flux évènementiel et transactionnel. Ainsi Storm ajoute à Hadoop une brique sur l'axe Fast Data.
On constate principalement deux types de projets en 2013-2014 :
- Projets de data mining sur signaux forts et faibles, sur des données endogènes et exogènes
- Projets de dépassement du "mur capacitaire" des appliances décisionnelles
Trois grandes familles de solutions d’analyse en streaming :
- Complex Event Processing
- In Memory
- Streaming Grid : Storm entre dans cette catégorie
2) Les enjeux du Big Data chez EDF par EDF R&D
Du fait du développement des smart-grids et du déploiement des compteurs communicants, les utilities vont devoir faire face à une augmentation du volume et de la variété des données qu’elles exploitent. Si la technologie est prête, cela implique pour ces sociétés, un changement de culture et une évolution des compétences afin qu’elles puissent placer la donnée au centre de leurs processus.
Les volumes en jeu sont importants mais n’atteignent pas les ordres de grandeur manipulés par les Telco ou les acteurs du Web. En revanche, les traitements peuvent être complexes : les données sont majoritairement des séries temporelles (ex. courbes de consommation ou de production), les études peuvent être multi-échelles, certains traitements doivent être mis en œuvre avec une faible latence.
Le « Proof Of Concept » (POC) Storm mené avec OCTO Technology s’inscrit pleinement dans les objectifs d’EDF R&D sur le Big Data (projet SIGMA²), notamment la maîtrise des technologies Big Data en lien avec le contexte EDF présent ou à venir.
Plus précisemment, les objectifs poursuivis sont les suivants
3) Retour d'expérience sur une expérimentation d'analyse d'indicateurs en temps réel avec Storm chez EDF R&D
Storm est une solution de complex event processing distribuée en java qui permet :
La méthodologie de travail qui a été utilisée dans le cadre de l’expérimentation est une approche itérative, avec priorisation des tâches par importance. Cette méthodologie a permis de répondre à une contrainte d'étude en temps limité.
Le cluster utilisé pour le projet est un cluster commodity de 8 serveurs dans un rack :
La solution est composée de 3 composants principaux :
Trois fonctionnalités ont été implémentées :
Spécificités et limites d’une implémentation Storm :
4) Bilan
La mise en œuvre d’une solution d’analyse d’indicateurs en temps réel basée sur Storm a permis de montrer les qualités et défauts suivants de Storm :
Points positifs :
Points négatifs :
Le projet n’a pas permis d’approfondir les points suivants :