Jupyter, un éditeur de Python qui permet de visualiser en direct les résultats de son code, très pratique comme outil. La démo ne s'est pas contentée de dérouler du code, elle a présenté de nombreux tips et retours d'expériences, le principal étant "bin il faut essayer, vérifier et itérer"
Lors de cette démo, on a pu voir :
Différentes façon de visualiser les données.
Un exemple de rajout de feature : en visualisant les "survies" en fonction de l'âge, on voit que les enfants ont l'air de survivre plus en proportion (surement lié au principe "les femmes et les enfants d'abord"). On décide donc de rajouter 2 features "is_child" et "is_adult" ayant des valeurs 0 et 1 en fonction de l'âge.
La partie entraînement du modèle, où l’on donne toutes les données à notre algorithme pour qu'il apprenne.
La partie prédiction, où on lui donne une donnée qu'il ne connaît pas et on lui demande une prédiction, ici "est-ce que la personne survit ou pas ?"
Après la prédiction, ce n'est pas fini, il faut la valider, être sûr qu'on n’a pas prédit n'importe quoi. Ici, l'ennemi est l'over-fitting, on a tellement optimisé notre algorithme sur nos données de tests que sur des nouvelles données, il prédit complètement à côté. Classiquement ce qu’on fait, c’est qu’on n’entraîne pas l’algorithme sur l’ensemble des données, mais on en garde une partie de côté pour valider : on fait les prédictions et comme on connaît le résultat, on peut vérifier.
Et enfin, la partie tuning, où l’on va faire varier les paramètres de notre algorithme pour trouver les meilleurs. Là, il n’y a pas de secret, on tâtonne et on essaye plein de combinaisons.
Petit rappel au passage sur la différence entre classification et régression. La classification c'est chercher à déterminer dans quelle "classe" va tomber notre individu, par exemple : est-ce qu'il est dans les survivants ou dans les non-survivants ? Et la régression, c'est quand on cherche à prédire une valeur, par exemple essayer de prédire prix du billet, une valeur possible est ici 123,45. Et pour que ce soit encore plus simple, attention aux faux-amis, une régression linéaire est un algorithme de classification, lol.
Après ces rappels, les orateurs ont présenté des exemples concrets qui restent assez connus comme le churn client. Au passage, le problème du churn, c’est que c’est souvent un cas où l’on a quelques individus qui vont “churner”, donc si on ne fait pas attention, l’algorithme a vite fait de se dire “je vais toujours prédire NON et j’obtiens un super score”. Donc, pour éviter ça, on peut sur-échantillonner la population en minorité… mais on risque d’inventer n’importe quoi. On peut aussi sous-échantillonner la population en majorité… mais on n’utilise pas une grande partie de nos données et on peut avoir rapidement une solution over-fittée. Au final, on fait souvent un mix des deux solutions.
Vient ensuite la question de l’interprétabilité : c’est bien d’avoir des résultats, mais bien souvent on a envie de pouvoir les expliquer. C’est pourquoi dans certains cas, on aime bien utiliser des arbres de décision, dans lesquels il est très facile d’expliquer les résultats (c’est finalement une grande succession de “if”. Après les arbres de décision, on passe aux “random forests”qui, en simplifiant un peu, est un ensemble de nombreux petits arbres de décisions qu’on fait ensuite “voter” pour atteindre un résultat final.
Deep Learning, dont tout le monde parle depuis quelques années, ce sont de simples réseaux de neurones. Avant (les réseaux de neurones ont été implémentés pour la première fois dans les années 70) on était rapidement limité par la puissance des processeurs alors que maintenant on peut empiler de nombreuses couches de réseaux de neurones les unes sur les autres, ce qui fait des millions voir des milliards de poids (un pour chaque liaison entre 2 neurones) à calculer. Quand on fait du deep-learning, ce qui est compliqué, c’est de construire la topologie de son réseau de neurones. Heureusement maintenant, on peut utiliser des bouts déjà existants. Et c’est là où apparaissent les frameworks de deep learning, dont TensorFlow est sûrement le plus en vogue aujourd’hui. Mais comme il est un peu compliqué à utiliser, il y a aussi des sur-framework (lol), comme Keras, qui simplifient son utilisation
Dernier conseil pour finir : réduire le périmètre. C’est plus simple de répondre à une question très précise “est-ce que cette image contient une voiture ?” Plutôt que cette image contient un véhicule”. C’est vrai que dit comme ça, ça semble évident, mais les besoins exprimés sont souvent généraux parce qu’on pense à tout ce qu’on voudrait faire. Un exemple concret c’est le besoin d’une entreprise de reconnaître ses 100 employés. Au lieu de faire un algorithme qui reconnaît les 100 personnes, ils ont implémenté 100 algorithmes qui reconnaissent chacun une personne et à chaque fois on appelle les 100 :)
Ce que j’en retire
Hands-on de trois heures aussi. Ce sujet m'intriguait depuis longtemps et c'était l'occasion de coder un peu :)
Bon, déjà, déception, on ne fait pas muter le code à proprement dit, mais uniquement les paramètres du programme. Moi qui ne comprenait pas comment on faisait du code qui se modifie tout seul, bin j’ai compris : en fait on ne le fait pas. Donc les algorithmes génétiques, c’est comment “faire une sélection sur un ensemble de solutions”.
Concrètement, ça se résume à la séquence suivante :
La vraie question est “quand utiliser ce genre de méthode ?” Quand l’espace de recherche est grand et qu’on n’arrive pas à trouver d’algorithmes déterministes qui donneraient une solution dans un temps raisonnable et qu’on préfère avoir une solution relativement bonne rapidement. Si vous connaissez l’approche “local search”, ça ressemble quand même pas mal.
Le reste de l’atelier était d’implémenter ces différentes étapes à partir d’un bout de code existant. Je ne vais pas vous faire l’affront de vous montrer notre code (on n’a pas fait de tests).
Ce que j’en retire
Petite session sur les lambdas et le framework Serverless. Au début on rebalaye les concepts de lambda et serverless. Bon évidemment, il y a toujours des serveurs, juste qu’on ne les voit pas. Le terme server(management)less serait donc plus approprié.
Petite définition d’une lambda : “fonction packagée avec ses dépendances et sa configuration associée comme la RAM utilisée, les variables d'environnement (pour se connecter à des base de données par exemple) répondant à une ou plusieurs sources d'événements (API, mais aussi events sur S3, cloudwatch, etc.)”.
Les grands avantages aux lambdas Facturation, sur AWS EC2 on est facturé à l’heure. Sur les lambdas, c’est à la 10ème de seconde. Scalabilité, elle est gérée par la plateforme, rien a faire de ce côté là. Pas d'infrastructure. On n’y touche pas, pas besoin d'OPS :) Métriques d'usage, comme on déploie des petites fonctions, on a les métriques directement sur ces fonctions. Force au découplage vu que par définition, on déploie des choses plus petites que des microservices. Cycle de développement, on déploie très très vite
Démo sur console AWS, effectivement ça prend trente secondes. Mais comme il y a plein de possibilités, il ne faut pas se tromper. L’intégration des lambdas reste compliqué, on peut utiliser CloudFormation d'AWS, mais il n’y a pas de guidelines particulières. Du coup, Serverless arrive pour faciliter tout ça. Dans la démo, effectivement, on passe d’une configuration d’environ 100 lignes à plus qu’une dizaine de lignes, ça a l’air bien. À noter que Serverless marche sur AWS bien sûr, mais aussi sur d’autres fournisseurs comme Azure et OpenWhisk.
Ce que j’en retire