29 mars 2019

Data Science vs Puissance !

Stylo & Feuille
Data Science & Plateformes techniques
Un constat réalisé lors de différents échanges : La Data Science est aujourd’hui souvent perçue comme associée à des plateformes techniques puissantes enrichies de cartes graphiques (GPU) et nécessitant le plus souvent, une hybridation dans le Cloud pour bénéficier de la puissance nécessaire aux phases d’apprentissage.
Mais est-ce la seule stratégie pour faire bénéficier son organisation des apports de l’apprentissage profond (DeepLearning) ? 
Il n'existe à ce jour aucune réponse définitive à cette question ! Cependant, j’étayerai le raisonnement en gardant à l’esprit les algorithmes de type « réseaux de neurones à convolution » basés sur des filtres et la recherche d’un motif dans une image (Yann Le Cun – 1990). En effet, ceux-ci sont utilisés dans l’assurance pour analyser par exemple, les croquis d’accident des constats européens d’accident, les photographies d’expertise des dégâts sur les automobiles, …
Classiquement le développement d’un produit répondant à ce besoin comportera au moins les quatre étapes suivantes :
  1. La première étape consistera à collecter des données (ici les images) : plusieurs centaines par catégorie seront sûrement nécessaire pour éviter le sur-apprentissage et à les transférer sur votre infrastructure de travail.
  2. La deuxième étape peu gratifiante mais au combien nécessaire, sera de les annoter pour alimenter l’algorithme. En effet ces étapes obligatoires de préparation et de mise en qualité des données restent toujours très consommatrices en temps et en énergie humaine. 
  3. La troisième étape aura pour nature l’entrainement du modèle pour minimiser les erreurs de classification.  Cette phase nécessite souvent une puissance de traitement importante et l’utilisation de cartes graphiques contenant des milliers d’unités de calcul : elles permettent un gain indéniable en temps. En outre, il est important dans cette phase d’avoir dans l’équipe des experts en Data Science.
  4. La dernière étape sera d’inscrire ce modèle sur le sentier technologique de mise en production (API, Batch, Techno, …). Également, il faudra construire un plan qualité permettant un réentrainement automatique du modèle ou a minima une procédure permettant de s’assurer qu’il ne dérive pas…
Des étapes d’une durée difficilement compressible et qui de surcroit nécessitent une bonne dose d’expertise. Loin de moi l’idée de nier la nécessité d’avoir des talents dans ce domaine ;-). Cependant, une autre stratégie peut être mise en œuvre pour contraindre le temps nécessaire aux étapes une à quatre : le « Transfert Learning » et ainsi contribuer à la diminution du temps de mise en marché (le graal !).
L’idée est de capitaliser sur les capacités déjà acquises d’un réseau de neurones pour les appliquer à un cas d’usage voisin en s’appuyant sur des bibliothèques d’algorithmes entrainés et disponibles en Open Source. D’ailleurs GitHub regorge de modèles répondant à différentes problématiques. Toutefois, pour affiner les résultats (Fine Tuning), il peut être intéressant d’ajouter une phase de réentrainement dédié au nouveau cas d’usage.  Notons que cette approche nécessite beaucoup moins de données (donc un temps d’annotation plus faible) et beaucoup moins d’expertise (un ajout de filtres) ainsi qu’une puissance de calcul nettement moindre (utilisation d’infrastructures classiques).
Cloud ou pas Cloud ? 
La réponse doit faire sens dans le contexte data de chaque entreprise en fonction des contraintes et des enjeux.  Cette question présente peu de sens pour des produits construits via « transfert learning »: toutes les infrastructures conviennent. Cependant, cette question reste entière pour les autres techniques d’apprentissage. Dans tous les cas, ce choix doit être fait pour répondre à des points de souffrance : gain en agilité des projets, scalabilité des infrastructures, budgets des projets orientés OPEX, … profiter des offres packagées proposées par OVH, Google, Amazon, …
Toutefois, il faut se garder d’« hybrider » ou « cloudifier » les architectures Data uniquement dans une approche purement technologique.  Ces environnements amènent aussi des contraintes : une duplication des données dans un nouveau container (silo ?), une gouvernance des données à faire évoluer, une gestion de l’interopérabilité entre les environnements ainsi que la réversibilité, une structure de coûts différente, une nouvelle stratégie de mise en marché, …
Le  « Transfert Learning » un élément clé pour démocratiser l’usage du Deep Learning ?
En somme, les freins aux déploiements massifs de technologies basées sur le Deep Learning proviennent du temps passé à préparer les données (nettoyage, annotation, …) et à calibrer les algorithmes.  Aujourd’hui la richesse des modèles pré-entrainés et librement disponibles (Open Source) permettent de répondre avec des plateformes technologiques courantes à de nombreuses préoccupations des organisations : analyse de verbatims clients, vérification de documents, analyses de carte, …
Pour conclure, J’ai la conviction que le « Transfert Learning » participera à la diffusion de solutions construites à partir d’apprentissage machine.  Toutefois, il faudra prendre garde que cette technique, utilisée sans les éléments de contexte de l’apprentissage, ne conduise pas à une propagation de biais non volontaires … 

Et là c’est une question d’éthique !
Liens :

7 mars 2019

Assurance: un monde qui change ?

Chemin sous la neige
© Hautes-Alpes - XIY

« Comment le numérique bouscule l’assurance ? » Un article des Echos met en exergue les grands défis auxquels cette industrie, autrefois considérée comme protégée, doit faire face.
Mais pouvons-nous remonter au point zéro de ces bouleversements ?
Il me semble que l’arrivée des comparateurs d’assurance au début des années 2010 et ainsi la possibilité offerte aux clients de mettre en perspective les prix des contrats ou les garanties proposées, a enclenché la transformation numérique du secteur.

Notons  que les premières réponses des assureurs furent variées vis à vis de ce mode "coûteux"  d’acquisition des clients :
  • Une non-participation souvent associée à un investissement technologique visant à simplifier la réalisation des devis dans le digital,
  • Une prise de participation capitalistique dans les comparateurs, 
  • Une proposition d'offres dans les comparateurs parfois soumises à des conditions,
  • Un mixte des éléments précédents. 

Aujourd’hui tous les acteurs traditionnels de l'assurance ont engagé des programmes de transformation profonds souvent basés sur une activation des données. Cependant ceux-ci percutent une évolution des modes de consommation qui s'oriente vers l'usage et qui pourrait amener à considérer l'assurance comme une option d'un service.
 
A suivre !


Lien:

13 oct. 2018

Le Cognitif à l'honneur !

  


Merci aux équipes D-FI pour avoir mis à l’honneur le cognitif le temps d’une soirée au Pershing Hall Hôtel en invitant deux intervenants de grande qualité que sont Laurent Alexandre (Chirurgien-urologue français, auteur et chef d'entreprise) et Xavier Vasques (IBM CTO - Directeur de la technologie). Au travers notamment des thématiques sur la « plateformatisation » de l’économie avec un coût marginal proche de zéro, la débâcle des acteurs européens dans l’IA (et la téléphonie!), la bulle autour de l’IA, l’enjeu de l’éducation, l’éthique autour de l’IA, la perte de souveraineté de l’Europe, les duopoles GAFA vs BATX, l’humain augmenté, les profils vainqueurs à l’ère de l’IA, … et la fin de la mort ont dressé les contours de ce nouveau paradigme sans tabou !

Concluons sur une note positive en citant Joseph de Maistre « Il y a bien moins de difficultés à résoudre un problème qu’à le poser ».

Photographie des intervenants de la table ronde sur le cognitif
X. Vasques - G. Fontaine - L. Alexandre

7 oct. 2018

Gouvernance de l'information et des données !

Bureau avec des papiers


En classant mes notes de préparation à la table ronde du club Urba-EA portant sur la thématique de l’« organisation et des acteurs de la gouvernance de l'information et des données », il me semble intéressant de partager trois idées.

  • La première est qu’il n’y a pas de modèle de gouvernance universelle. Un modèle de gouvernance doit se déployer et s’appréhender dans une stratégie ou un contexte business.Par exemple, pour des sociétés opérant dans un environnement à forte réglementation comme les banques via MIF2, PRIIPs, DSP2, finalisation Bâle 3, RGPD, …, il faudra des processus permettant de standardiser, gouverner les accès, identifier les sources de vérité, … et une organisation humaine dont les rôles sont très finement définis. D’ailleurs, la présentation réalisée par la BNP sur sa gouvernance lors de ce club en est une belle illustration.De plus, une stratégie analytique pourrait comporter une composante forte sur la détection des fraudes. En revanche, pour les sociétés œuvrant sur des marchés moins matures ou en conquête de part de marché, il faudra que la gouvernance soit la plus agile possible dans l’optique de favoriser les usages mais aussi de mesurer en continu le niveau de satisfaction des clients.  Celle-ci devra (pourra ?) être durcie et enrichie dans une phase de stabilisation de l’activité.
  • La deuxième est que l’écosystème des données s’enrichit au travers de l’hybridation des systèmes d’information (cloud) et de l’arrivée de l’API-sation. Le système d’information d’une entreprise est maintenant ouvert sur l’extérieur au travers de nombreuses briques digitales (Data Management Plateform, CRM, Analytics, …) et d’échanges de données au travers de services. Un système de gouvernance doit se penser de manière globale quitte à le décliner par étape en fonction des risques identifiés. De ce fait, la transformation numérique impose aussi à la gouvernance un changement culturel !   
  • La troisième est que la donnée n'est pas qu’une affaire de « Chief Information Officer » ou de « Chief Data Officer ». Un point qui peut parfois sembler trivial à énoncer mais la donnée ne se limite pas à de la modélisation, à du stockage, … ou à des outils. Il est important de garder à l’esprit que la valeur de la donnée se trouve uniquement dans son activation.  Il faut donc au maximum en démocratiser et en favoriser son usage dans toute l’organisation dans le respect des réglementations et de l’éthique bien évidemment.  

En conclusion, et pour votre entreprise, quels sont les enjeux portés par la stratégie autour des données ? Diminuer le temps de création des produits ? Gagner en agilité et en productivité ? Développer les usages autour de la robotisation ou l’intelligence artificielle ? Développer le business ? Respecter uniquement la réglementation ?

17 juin 2018

Stratégie: Comment une contrainte peut devenir une opportunité pour Google ?

Figure jeu d'echecs
© 2018 Pixabay - Devanath

Une des antiennes actuelles consiste à mettre (enfin ?) le client au centre des préoccupations de l'entreprise. En parcourant les différentes études sur la relation aux marques des consommateurs, un des points mis en exergue est la confiance et le fait que celle-ci repose notamment sur la sincérité et la transparence.

Il est alors intéressant d'illustrer cette prise en compte par la stratégie de mise en conformité adoptée par Google ainsi que par les actions que le géant de Mountain View met en place pour répondre aux exigences du RGPD.

En effet, cette société utilise une contrainte réglementaire pour réinventer sa relation client en développant une bulle de transparence qui laisse, à ses utilisateurs, la capacité de gérer l'utilisation de leurs données. C'est ainsi que la société californienne se positionne sur deux points structurants le droit à l'oubli (Art. 17) dont la gestion se fait au travers du menu "Activité" ainsi que le droit à la portabilité des données (Art. 20) en lançant le projet open source "Data Transfert Project".

Une tactique différenciante visant à gagner la confiance des clients mais qui n'est pas sans risque pour un acteur dont le business modèle repose sur la monétisation des données personnelles. 

Références: