Si les métiers comme Data Analyst et Data Scientist peuvent paraître très confus pour les non-initiés au Big Data, ses enjeux et ses technologies ne sont pas aussi simples à envisager. Pourtant, elles font partie de notre vie de tous les jours. Pour tous les candidats qui débutent leur carrière mais aussi pour ceux qui souhaitent se reconvertir, avoir des compétences en Data est devenu essentiel.
Depuis 2019, les organisations recherchent de plus en plus de collaborateurs qui possèdent des compétences spécialisées et des compétences relationnelles. Plus important encore, le raisonnement analytique occupe désormais la troisième place des connaissances spécialisées. Guillaume Rozier nous propose une immersion dans le domaine de la Data Science pour mieux en comprendre les métiers, les compétences mais également la culture qui gravite autour.
Guillaume Rozier nous présente deux plateformes, Open Source et Data driven qu’il à conçu durant la pandémie de Covid19.
Il s’agit de la première plateforme créée par Guillaume au début de l’épidémie de Covid il y a 2 ans. Elle permet de suivre et de comprendre l’épidémie et son évolution en France et dans le monde. Ses fonctionnalités permettent à l’utilisateur de suivre un certain nombre d’indicateurs (épidémique, sanitaire, hospitalier, etc). L’objectif est de vulgariser ces indicateurs qui peuvent être perçus comme complexes pour des non-professionnels de santé. De ce fait, la prise de décisions et de responsabilités sont rendues accessibles à tous afin de lutter contre l’épidémie.
Elle prend son origine d’un graphique initialement très simple visant à comparer l’évolution de la pandémie en Chine, en Italie et en France. L’information, rendue accessible aux utilisateurs twitter non-professionnels de santé, ceux-ci ont demandé des mises à jour régulières des graphiques. Guillaume a donc créé des algorithmes qui récupèrent automatiquement les données, les traitent, leurs font prendre de la valeur par le biais de visualisation de données. Aujourd’hui CovidTracker c’est 10 millions d’utilisateurs uniques par mois en période haute de pandémie, 8 millions de pages vues en 4 jours et des centaines de milliers d’abonnés sur les réseaux sociaux.
Deuxième plateforme Data driven créée par Guillaume Rozier, elle permet de trouver un rendez-vous de vaccination anti-covid. Là aussi, des algorithmes détectent les données et agrègent l’ensemble des créneaux de vaccination disponibles sur les plateformes de réservation.
Vite Ma Dose représente 20 millions de recherches par semaine, 3 millions de visiteurs par jour en 2021 et plus de 30 millions de rendez-vous. L’algorithme mis en place scanne toutes les plateformes, parfois méconnues des français, et compile les rendez-vous de vaccination sur un seul et même site web. Là encore, le succès du prototype fut rapide.
Cependant, dans le processus de création de ces plateformes, plusieurs contraintes se sont interposées. La première contrainte est temporelle, dans l’urgence de la situation il fallait développer ces plateformes rapidement. Il fallait également une certaine flexibilité car l’épidémie et la campagne de vaccination évoluent en permanence. Enfin, les ressources en expertise et financières étaient limitées. En sommes, malgré des contraintes et des lacunes techniques, il a été possible de créer des outils simples et data driven qui permettent aux citoyens de prendre des décisions basées sur ces données. Chacun peut et doit tirer profit de la data.
C’est une information stockée et transmissible dans un système informatique. Le stockage, le transfert et le traitement des données coûtant de moins en moins cher ainsi qu’une prise de conscience globale des enjeux de la data, ont permis une explosion de la volumétrie des données produisant ainsi le Big Data
Le Big Data se définit par 3V :
Volume : Des données volumineuses. Le volume annuel de données numériques créé à l’échelle mondiale a été multiplié par plus de vingt durant les dix dernières années et s’approche de 50 zettaoctets en 2020.
Variété : Une multiplicité de types de données qui ne sont pas toujours structurées.
Vitesse : Des données générées de façon volumineuse et sur un temps très court en étant par la suite exploitables de manière rapide et fluide.
Cependant, on ne tire profit du Big Data que si l’on traite et enrichi la donnée afin qu’elle soit vraie et fiable. Mais également en ne stockant uniquement les données ayant une réelle valeur et qui sont actionnables. Il est donc important pour une organisation de donner de la valeur à ces données.
La donnée peut être utilisée de plusieurs manières différentes :
Le produit data : La proposition de valeur du produit repose sur de la Data, elle est au cœur du produit ou de la fonctionnalité. La donnée est collectée dans un but précis, elle est considérée comme un produit. Il faut l’exploiter, la traiter, l’enrichir pour la rendre utile.
L’organisation Data driven : La Data est exploitée pour améliorer le produit ou l’organisation. Les données disponibles sont mises en lumière, elles permettent d’analyser ou de comprendre l’utilisateur et servent à prendre des décisions.
Elles sont parfois collectées pour des besoins opérationnels mais sont rarement utilisées outre mesure. Ces données permettent une prise de décision plus stratégiques et une meilleure gestion opérationnelle, c’est pour cela qu’il est nécessaire de les transformer pour leur donner du sens.
Dans ce but, il s’avère utile de construire une plateforme data et collecter ces données à visée analytiques :
La plateforme data permet deux stratégies :
Top down : C’est ce qui permet de donner de la visibilité à la direction d’une organisation et donc de prendre des décisions stratégiques basées sur ces données.
Bottom up : En complémentarité de la précédente, elle permet à chacun des collaborateurs d'accéder à ces données internes. Les décisions prises seront cette fois opérationnelles et peuvent faire émerger des use cases pour l’utilisateur final.
Donc un pilotage Data driven grâce à la construction d’une plateforme data permet d’observer, suivre et piloter le domaine de l’entreprise, d’apporter une réponse stratégique aux besoins d’investigation sur la donnée mais également de s’alimenter en continu de données fraîches, représentatives de l’état du SI au quotidien. La construction d’une plateforme data permet également une autonomie des directions métier dans l'expérimentation de nouveaux cas d’usage.
Finalement, une plateforme data est un lieu permettant à un utilisateur de construire une réponse à une question qu’il se pose. Elle est chargée d’exposer les données du SI de façon centralisée et uniformisée.
Pour mettre en lumière les données, il existe différentes compétences et métiers data. Chaque collaborateur est impliqué dans les traitements de données car on rencontre la data à chaque niveau métier. Il existe quatre grands métiers de la Data :
Le data engineering se concentre sur l’élaboration et la structuration des flux de données afin de permettre une exploitation optimale. Il s’agit d’une discipline visant à organiser, structurer et sélectionner les données de façon à permettre un traitement adéquat. C’est ce qui permet de répondre à la question de moyen de récupération, stockage, traitement et gouvernance de la donnée.
La science des données consiste à extraire de la connaissance et des informations actionnables à partir de données brutes. Le Machine Learning est une sous-discipline de la Data Science dont l’objectif est de créer des algorithmes “modèles” capables de déduire des patterns dans des données brutes pour déduire de nouvelles connaissances.
C’est une discipline qui a pour objectif de permettre à tous les collaborateurs de bien comprendre les données en vue d’une prise de décision : Business Intelligence.
La Data Visualisation est l’outil le plus populaire pour celà, elle permet l’exploitation visuelle et interactive des données grâce à des dashboards, des analyses, des rapports visuels (pas uniquement des graphiques et des cartes).
La construction d’un produit data utile nécessite de la coordination entre l’ensemble des acteurs. Le Product Owner est responsable du livrable final, son rôle peut être assimilé au chef de projet en mode agile, même si les deux peuvent coexister. Son objectif est de faire émerger les besoins, et faire l’interface avec les équipes techniques.
Conduire un projet data est différent d’autres projets numériques. Il est nécessaire d’avoir des compétences Data car, pour que le produit Data rencontre un succès, il doit être utile, utilisé et utilisable. Développer un produit data requiert une certaine technicité qui est différente d’autres projets numériques mais également plus d’incertitudes que dans la réalisation d’autres produits.