22 mars 2021

Quel est le programme de travail pour la CNIL en 2021 ?

PLAYMOBIL & Ordinateur
cybersécurité

Le programme de travail de la CNIL est assez similaire à celui de l’année précédente tout en tenant compte de l’actualité.

A l’instar de l’année dernière, il s’articule autour de trois axes  :

  • La sécurité des données de santé ;
  • Les cookies et les autres traceurs publicitaires en s’assurant que les lignes directrices et les recommandations sont respectées  ;
  • La cybersécurité. L’objectif de la CNIL est de contrôler le niveau de sécurité des sites web français les plus utilisés dans différents secteurs ainsi que d’interroger les organismes sur les stratégies mises en place pour  se prémunir contre les rançongiciels.
A noter que la CNIL en 2020 a réalisé 6 500 actes d’investigation dont 247 procédures formelles de contrôle. Serons-nous sur les mêmes niveaux d'activité cette année ? 
A suivre !

Source :

17 févr. 2021

La donnée un asset si particulier rentrant dans tous les processus de l'assurance.

 

Un point intéressant des enquêtes menées par l'ACPR est de pouvoir suivre, au fil du temps, l'évolution du marché assurantiel sur la thématique de la  gouvernance de la qualité des données ainsi que de mesurer les attentes du régulateur. Bien que l'analyse soit conduite  sous un prisme réglementaire, elle n'en couvre pas moins les aspects allant de la politique jusqu'au dispositif de contrôle en passant par l'usage des données externes. Notons que ce dernier point prend tout son sens à l'heure de la transformations numérique et des partenariats (gestion déléguée, startup, etc. ). 

Par ailleurs, dans cette mouture, l'autorité recroise les déclarations portées avec des situations observées lors des contrôles sur place et attire l'attention sur quelques points : la cartographie des flux, le catalogue des données, le dispositif de pilotage et de contrôle.

 

Des enseignements qui peuvent sûrement être partagés avec de nombreux secteurs ?

 


ACPR


3 mai 2020

COVID19 des chiffres et encore des chiffres !


Si les chiffres s’invitent chaque soir dans les foyers au travers du point presse de Jérôme Salomon sur l’état de la pandémie, ils sont trop souvent énoncés hors contexte et sans base de comparaison. Il faut donc pour les mettre en perspective les ramener sur une base commune de population.
Pour donner suite à une discussion sur la transparence et profitant des données disponibles en #OpenData sur le site data.gouv.fr et celui de l’INSEE : quelle est la situation dans les différents départements français si nous rapportons les chiffres à leur démographie ?
Le fichier COVID19 utilisé pour réaliser ce post est celui publié le 2 mai 2020 contenant le nombre de décès à l’hôpital et la population des départements est celle de 2016. Si la valeur médiane du nombre de décès à l’hôpital par million d’habitant est de 192, celui-ci varie pour les cinq premiers départements de 1048 pour le Territoire de Belfort (90) à 645 pour la Moselle (57).
Notons que ces chiffres sont partiels puisqu'ils ne prennent pas en compte les décès en EHPAD et au domicile mais ils ont l’avantage de permettre une comparaison sur un périmètre commun avec d’autres pays.  

Pour ma part dans le top trois, j’aurais pu citer le Haut-Rhin mais pas forcément le Territoire de Belfort et le Val-de-Marne !

Covid19 : Données au 2 mai 2020


Sources :


7 janv. 2020

Mais où est donc passé le ePrivacy ?

Centre de Convencions Internacional de Barcelona
Centre de Convencions Internacional de Barcelona

Pour parachever le volet sur la vie privée et les données personnelles dans l’Union Européenne, un texte n’est toujours pas publié : l’ePrivacy. En effet les différentes moutures de ce règlement n’arrivent (toujours) pas à dégager un consensus et font l’objet d’intenses actions de lobbying de la part des industriels du digital : Télécom, Plateformes, e-commerce, presse, publicité en ligne, etc.  Pour autant, les points mis en exergue sont différents en fonction des secteurs. Notons, par exemple que les interventions des opérateurs de télécommunication portent sur les métadonnées et les plateformes digitales (Facebook, Google, etc.) sur l’usage du contenu. 
Est-ce gênant de ne pas avoir de texte ? Oui, pour suivre la philosophie de la Commission Européenne qui souhaitait réguler un secteur en plein développement technologique et économique. 

Quelques éléments sur le règlement.


Après l’entrée en vigueur du Règlement Général sur la Protection des Données (RGPD) le 25 mai 2018 devait suivre, dans la foulée, le règlement ePrivacy. Il devait compléter le RGPD et harmoniser la législation des Etats membres en remplaçant la directive « Vie privée et communications électroniques » de 2002. D’après les motifs exposés par la Commission Européenne en 2017, son objectif est de rendre « les services numériques plus sûrs et de susciter davantage de confiance ».
Contrairement au RGPD concernant les personnes physiques, l’ePrivacy s'appliquera aux personnes morales, associations, etc. De plus, il inclut dans son scope : les fournisseurs de services électroniques, les services par contournement (OTT) de type Skype ou WhatsApp, les fournisseurs d’annuaires et de logiciels, les annonceurs sur internet.
Les principales nouveautés seront :
  • L’encadrement de l’usage des métadonnées découlant des communications électroniques : les numéros appelés, les sites web visités, les lieux, les contenus, etc. 
  • La mise en place notamment d’un consentement préalable (le principe général d’interdiction).
A l’instar du RGPD, les amendes seront de 4% du chiffre d’affaires mondial ou 20 millions d’euros.

Quels reproches ?


Revenons sur trois points litigieux : 

Le premier provient de la méthode de recueil des consentements sur les assets digitaux.  Le règlement devrait interdire l’usage des bannières pour recueillir les autorisations sur les cookies au profit des paramètres du navigateur qui devront être réglés par défaut à non.  Actuellement les informations et les options proposées sur ces bandeaux ne sont que très rarement lues. De ce fait, les cookies et autres traceurs peuvent être utilisés de manière presque implicite. Le changement de règle est donc perçu par les différentes parties prenantes de la publicité comme une démolition de leurs « Business Model ». 
D’autre part et comme 90% du trafic actuel passe par les navigateurs américains Google, Apple, Microsoft et Firefox, ce point peut être considéré comme un renforcement du rôle de ces géants du net. Enfin, une étude de Deloitte citée par le Syndicat de la Presse Quotidienne Nationale (SPQN), montre que la mise en place de l’ePrivacy pourrait conduire à une baisse de 30% de leurs revenus (à prendre avec précaution sans avoir les hypothèses posées).
En dernière analyse, notons que l’AdTech comporte un grand nombre d’acteurs européens et que la presse revêt un caractère particulier au niveau de l’UE. Ces points devraient avoir une résonance particulière !

Le deuxième vient de l’intégration des applications de type WhatsApp dans le giron de la réglementation qui jusqu’à maintenant y échappait. La mise en place du ePrivacy devrait contraindre leurs éditeurs à mettre en place une gestion de la confidentialité mais surtout à restreindre l’usage du contenu échangé. En effet, celui-ci est souvent monétisé à des fins publicitaires.

Le troisième est beaucoup plus structurant. Si le RGPD est un texte général posant les définitions, les principes ainsi que de la gouvernance de la confidentialité, le ePrivacy aura un impact plus large. Comme il encadrera la fourniture et l’utilisation des services de communications électroniques et le traitement des données relatives aux équipements terminaux des utilisateurs (géolocalisation, communication, voiture connectée, etc.), il régira de fait l’économie des données européennes. En outre, l’articulation entre le RGPD et le ePrivacy nécessite d’être précisée pour éviter une zone de flou juridique entre les deux règlements. Pour finir, de nombreux industriels ont déjà investi pour se mettre en conformité avec le RGPD et investir à nouveau pour un texte qui semble être un frein à l’innovation ne fait pas consensus (sic).

Un contexte favorable maintenant ?


Avec l’élection du nouveau parlement européen en mai 2019 ainsi que la mise en place de la nouvelle Commission Européenne sous la présidence d’Ursula VON DER LEYEN, le contexte politique évolue. Sans compter que, ces modifications ont entrainé des changements dans les attachés des représentations permanentes auprès de l’Union Européenne.
En outre, le RGPD dépendait du Conseil « Justice et affaires intérieures » alors que le Conseil « Transports, télécommunications et énergie » est en charge de l’ePrivacy. Cette modification induit l’arrivée de nouveaux interlocuteurs qui doivent se former et qui seront peut-être un peu plus « malléables » durant cette phase de découverte.
Le tout combiné à la déclaration du nouveau commissaire européen au marché intérieur (nommé après quelques tribulations) Thierry BRETON indiquant la soumission d’une nouvelle proposition. Cette révision s’inscrit dans les demandes formulées par la République tchèque, le Portugal, l’Autriche et la France.
Remarquons que le point de stabilité dans les interlocuteurs se trouve au niveau des lobbies !
Mais dans quel sens ira cette révision ? Vers plus de protection des droits des citoyens européens ou vers l’allégement des contraintes pour les industriels ? 
A suivre !
   
Les liens :

29 mars 2019

Data Science vs Puissance !

Stylo & Feuille
Data Science & Plateformes techniques
Un constat réalisé lors de différents échanges : La Data Science est aujourd’hui souvent perçue comme associée à des plateformes techniques puissantes enrichies de cartes graphiques (GPU) et nécessitant le plus souvent, une hybridation dans le Cloud pour bénéficier de la puissance nécessaire aux phases d’apprentissage.
Mais est-ce la seule stratégie pour faire bénéficier son organisation des apports de l’apprentissage profond (DeepLearning) ? 
Il n'existe à ce jour aucune réponse définitive à cette question ! Cependant, j’étayerai le raisonnement en gardant à l’esprit les algorithmes de type « réseaux de neurones à convolution » basés sur des filtres et la recherche d’un motif dans une image (Yann Le Cun – 1990). En effet, ceux-ci sont utilisés dans l’assurance pour analyser par exemple, les croquis d’accident des constats européens d’accident, les photographies d’expertise des dégâts sur les automobiles, …
Classiquement le développement d’un produit répondant à ce besoin comportera au moins les quatre étapes suivantes :
  1. La première étape consistera à collecter des données (ici les images) : plusieurs centaines par catégorie seront sûrement nécessaire pour éviter le sur-apprentissage et à les transférer sur votre infrastructure de travail.
  2. La deuxième étape peu gratifiante mais au combien nécessaire, sera de les annoter pour alimenter l’algorithme. En effet ces étapes obligatoires de préparation et de mise en qualité des données restent toujours très consommatrices en temps et en énergie humaine. 
  3. La troisième étape aura pour nature l’entrainement du modèle pour minimiser les erreurs de classification.  Cette phase nécessite souvent une puissance de traitement importante et l’utilisation de cartes graphiques contenant des milliers d’unités de calcul : elles permettent un gain indéniable en temps. En outre, il est important dans cette phase d’avoir dans l’équipe des experts en Data Science.
  4. La dernière étape sera d’inscrire ce modèle sur le sentier technologique de mise en production (API, Batch, Techno, …). Également, il faudra construire un plan qualité permettant un réentrainement automatique du modèle ou a minima une procédure permettant de s’assurer qu’il ne dérive pas…
Des étapes d’une durée difficilement compressible et qui de surcroit nécessitent une bonne dose d’expertise. Loin de moi l’idée de nier la nécessité d’avoir des talents dans ce domaine ;-). Cependant, une autre stratégie peut être mise en œuvre pour contraindre le temps nécessaire aux étapes une à quatre : le « Transfert Learning » et ainsi contribuer à la diminution du temps de mise en marché (le graal !).
L’idée est de capitaliser sur les capacités déjà acquises d’un réseau de neurones pour les appliquer à un cas d’usage voisin en s’appuyant sur des bibliothèques d’algorithmes entrainés et disponibles en Open Source. D’ailleurs GitHub regorge de modèles répondant à différentes problématiques. Toutefois, pour affiner les résultats (Fine Tuning), il peut être intéressant d’ajouter une phase de réentrainement dédié au nouveau cas d’usage.  Notons que cette approche nécessite beaucoup moins de données (donc un temps d’annotation plus faible) et beaucoup moins d’expertise (un ajout de filtres) ainsi qu’une puissance de calcul nettement moindre (utilisation d’infrastructures classiques).
Cloud ou pas Cloud ? 
La réponse doit faire sens dans le contexte data de chaque entreprise en fonction des contraintes et des enjeux.  Cette question présente peu de sens pour des produits construits via « transfert learning »: toutes les infrastructures conviennent. Cependant, cette question reste entière pour les autres techniques d’apprentissage. Dans tous les cas, ce choix doit être fait pour répondre à des points de souffrance : gain en agilité des projets, scalabilité des infrastructures, budgets des projets orientés OPEX, … profiter des offres packagées proposées par OVH, Google, Amazon, …
Toutefois, il faut se garder d’« hybrider » ou « cloudifier » les architectures Data uniquement dans une approche purement technologique.  Ces environnements amènent aussi des contraintes : une duplication des données dans un nouveau container (silo ?), une gouvernance des données à faire évoluer, une gestion de l’interopérabilité entre les environnements ainsi que la réversibilité, une structure de coûts différente, une nouvelle stratégie de mise en marché, …
Le  « Transfert Learning » un élément clé pour démocratiser l’usage du Deep Learning ?
En somme, les freins aux déploiements massifs de technologies basées sur le Deep Learning proviennent du temps passé à préparer les données (nettoyage, annotation, …) et à calibrer les algorithmes.  Aujourd’hui la richesse des modèles pré-entrainés et librement disponibles (Open Source) permettent de répondre avec des plateformes technologiques courantes à de nombreuses préoccupations des organisations : analyse de verbatims clients, vérification de documents, analyses de carte, …
Pour conclure, J’ai la conviction que le « Transfert Learning » participera à la diffusion de solutions construites à partir d’apprentissage machine.  Toutefois, il faudra prendre garde que cette technique, utilisée sans les éléments de contexte de l’apprentissage, ne conduise pas à une propagation de biais non volontaires … 

Et là c’est une question d’éthique !
Liens :