Data Discovery : l’art de trouver l’aiguille dans une botte de données

Introduction et enjeux

Des données personnelles à caractère médical dans une application accessible par tous. Cela vous inquiète ? Une telle exposition de ce type de données peut être identifiée grâce à la Data Discovery.

Qu’est-ce que la Data Discovery ?

La Data Discovery est un processus dont l’objectif est de collecter des quantités massives de données à partir de sources multiples, de les agréger et de les classifier. Les données sources scannées peuvent être de deux natures :

  • Données structurées (en base de données)
  • Données non structurées (données présentes dans des SharePoint, mails, documents Word, PDF…)

Concrètement, du point de vue de la cybersécurité, la Data Discovery permet d’identifier, classer et localiser les données sensibles et critiques pour l’entreprise.

Quels sont les cas d’utilisation de la Data Discovery ?

1 – Pour améliorer la confidentialité des données :

Dans les domaines traitant des données sensibles, comme le milieu médical ou militaire, la Data Discovery permet de détecter et localiser ces données sensibles. En scannant un SharePoint ou une base de données, on cherche à détecter des patterns, par exemple un format IBAN ou un numéro de carte bancaire, et à les localiser. Il devient donc possible d’avoir une vue d’ensemble de la dispersion et de l’exposition – volontaire ou non – de ce type de données.

Selon les cas, l’objectif est de répondre aux exigences du régulateur – par exemple le RGPD – ou de garantir les intérêts commerciaux et stratégiques de l’entreprise – secret industriel.

2 – Pour garantir l’intégrité des données :

L’exemple du domaine bancaire est le plus parlant pour expliquer un tel cas d’utilisation de la Data Discovery. L’intégrité de la donnée y sera un point crucial : des transactions suspectes peuvent être identifiées, cataloguées et classées. Des anomalies dans de larges volumes de données consommateurs peuvent être détectées, en considérant la différence avec les données en base étiquetées comme « normales ».

D’un point de vue métier, la Data Discovery peut avoir un autre usage :

La détection de patterns et de schémas répétés dans les bases de données. Cette action permet de participer à l’aide à la prise de décision dans les domaines du marketing ou des réseaux sociaux, l’agrégation des données de comportement en ligne peut générer des analyses prédictives ou identifier des tendances (pour optimiser une campagne par exemple).

Il est important de rappeler que la Data Discovery reste un outil de détection et d’analyse. Il ne s’agit pas d’un outil de remédiation ou d’action. 

La Data Discovery en pratique

Différentes étapes d’implémentation de la Data Discovery :

Etapes d'implémentation de la Data Discovery

Défis liés à la Data Discovery

1 – Longueur du temps d’implémentation

Comme toute conduite de changement, la Data Discovery est un projet à long terme. D’après notre retour d’expérience chez nos clients, les différentes étapes de Build jusqu’au premier scan représentent à peu près un an de travail.

Le run peut également être chronophage. Il est nécessaire d’établir une gouvernance claire sur les responsabilités de chacun. Par exemple, il faut définir les acteurs chargés de réaliser les scans de données, ceux chargés de la remédiation (souvent les RSSI) et le process associé.

Le cadrage est essentiel au début du projet pour réussir à optimiser ce temps de mise en œuvre.

2 – Des résultats complexes à analyser 

Même une fois les premiers résultats obtenus, une phase d’analyse doit être menée.

Par exemple, si la règle est de détecter un numéro de carte bleue, de nombreux faux positifs (i.e. nombre à 16 chiffres qui n’est pas une donnée bancaire) sont également détectés.

Conclusion

La Data Discovery s’inscrit dans la Data Protection au même titre que la prévention contre la fuite de données (DLP), le chiffrement des données, des flux ou encore l’anonymisation des données. Cependant, alors que ces autres notions sont préventives, la Data Discovery est un outil utilisé dans une démarche informative.

De plus, contrairement au DLP, où il est tout de suite possible d’estimer le retour sur investissement (via l’évaluation du nombre de données non envoyées en dehors de l’entreprise par exemple), la Data Discovery s’inscrit dans un processus à long terme et il est plus difficile d’en évaluer les bénéfices d’un seul coup d’œil.

La Data Discovery n’est que la première partie d’un processus plus large. Une fois les données sensibles détectées, l’objectif est de mettre en place un mécanisme de surveillance des données. Par exemple, pour les données structurées, le DAM peut être utilisé afin de surveiller, détecter et alerter sur les activités inhabituelles sur les bases de données. Cet outil permet notamment d’envoyer une alerte en cas de fuites de données sensibles ou secrètes.

Un outil de Data Discovery mature permet donc d’avoir un inventaire fiable des actifs stockant des données sensibles. Cette première étape permet de sécuriser les données de manière précise, efficace et optimisée et d’identifier les potentielles fuites de données sensibles.

Co-écrit par Victor THAK, Marguerite LACROIX et François POSNIC et revu par Paul IUNG et Thomas GUILLEMOT