Celui qui voulait échapper au RGPD grâce à l'anonymisation

Le RGPD encadre le traitement des données personnelles, qui se rapporte à des personnes identifiées ou identifiables. Dès lors, l’anonymisation des données peut sembler être un bon moyen de contourner ce règlement. Mais est-ce réellement le cas ?

POURQUOI ANONYMISER DES DONNÉES DE SANTÉ ?

Il convient tout d’abord de distinguer l’anonymisation d’une autre notion avec laquelle elle est souvent confondue : la pseudonymisation.

La pseudonymisation consiste à « remplacer les données directement identifiantes (nom, prénom, etc.) d’un jeu de données par des données indirectement identifiantes (alias, numéro dans un classement, etc.). Lorsque des données ont été pseudonymisées, il est toujours possible de retrouver l’identité des individus à travers des méthodes de corrélation et d’inférence. Les données pseudonymisées sont donc considérées comme des données personnelles, puisqu’elles concernent des personnes potentiellement identifiables.

Au contraire de la pseudonymisation, l’anonymisation est irréversible. Des données anonymisées ne pourront plus être associées à des individus identifiés.

Afin d’anonymiser des données et donc d’éliminer toute possibilité de ré-identification, il existe plusieurs techniques rappelés par le G29 dans son avis publié en 2014, et nous allons nous attarder sur deux d’entre elles :

  • La randomisation : modifier des attributs tout en conservant leur répartition globale dans le jeu de données (par exemple, permuter les dates de naissance des individus) ;

  • La généralisation : modifier l’échelle ou l’ordre de grandeur des attributs afin qu’ils soient communs à plusieurs personnes (par exemple, remplacer la date de naissance par une fourchette d’âge).

On peut alors s’interroger sur la pertinence de l’anonymisation dans le cadre de la recherche médicale. 

Tout d’abord, avoir des informations exactes et précises est essentiel pour construire des algorithmes fiables en vue d’établir des processus dits de médecine personnalisée. De plus, si l’étude est concluante, il faudra pouvoir retrouver chaque patient pour l’accompagner au mieux, le but étant de lui signaler toute anomalie génétique par exemple dont il n’aurait pas connaissance.

Aussi, il est impossible d’anonymiser des données lorsque l’on travaille sur un petit échantillon : altérer les attributs ne serait pas suffisant pour empêcher toute ré-identification. L’anonymisation ne convient donc pas aux recherches sur des maladies rares par exemple, touchant par définition peu de personnes. En fin de compte, les données anonymisées ne sont réellement pertinentes que pour des analyses statistiques ou éventuellement la génération de preuves de concept.

Tenter en vain d’obtenir une anonymisation complète des données de santé dans la recherche est un chemin de traverse avec un investissement colossal d’entrée de jeu pour une probabilité de succès minime et surtout une pertinence médicale et déontologique proche du néant.

ALORS, CHEZ DRDATA, ON FAIT COMMENT POUR TROUVER DES SOLUTIONS ACCEPTABLES ? 

Nous préférons parler de dé-identification avec une approche de gestion des risques plus pertinente.

En bref, nous acceptons que le risque 0 n’existe pas dans notre siècle de digitalisation poussé à son paroxysme. 

Comment faisons-nous ? Nous partons de l’analyse du traitement et des données utilisées pour appliquer toutes les mesures de sécurité technique (type randomisation, chiffrement, cloisonnement etc.) et organisationnelle pour calculer la probabilité scientifique de ré-identification des patients en fonction de l’état de l’art.

Nous établissons une matrice de risques qui guide le projet et lui permet de se déployer, et qui met le Responsable de traitement dans une vraie position de décision grâce à une méthode scientifique.

LE DPO, GARANT D’UN PROCESSUS D’ANONYMISATION SÉCURISÉ

Lorsque l’on procède à une anonymisation, on part de données identifiantes : ce processus est donc considéré comme un traitement des données personnelles. Par conséquent, le RGPD et ses obligations s’appliquent : nécessité d’informer le patient et éventuellement d’obtenir son consentement, de mettre en place des mesures de sécurité etc.

Afin de respecter le RGPD et d’éviter tout risque de sanction, il est préférable de faire appel à un DPO (délégué à la protection des données). Celui-ci procédera à une analyse d’impact relative à la protection des données (AIPD) comme décrit plus haut, qu’il soumettra éventuellement à l’avis de la CNIL. Cette étude à la fois réglementaire et technique permettra d’évaluer les risques de la dé-identification souhaitée. 

Si l’anonymisation n’est pas la solution la plus pertinente pour votre projet, votre DPO pourra vous l’indiquer et vous suggérer des alternatives. Par exemple, si vous souhaitez mener une preuve de concept (POC), il pourra vous conseiller d’utiliser des données synthétiques. Les données synthétiques sont obtenues en créant des « jumeaux numériques » à vos patients et en mélangeant leurs attributs à d’autres données. Ce processus est un traitement des données et il faut donc en informer les patients concernés et obtenir leur consentement éventuellement.

Les données synthétiques ne sont pas anonymisées, puisqu’il est possible de ré-identifier les individus. Enfin, elles ne peuvent porter que sur des données textuelles, cela ne s’applique donc pas aux images médicales par exemple.

Recourir à l’anonymisation des données peut être tentant, mais il est essentiel de s’assurer de la pertinence scientifique de ce processus et de sa conformité au RGPD !


Pour en savoir plus sur les techniques d'anonymisation : CNIL (2014), "Le G29 publie un avis sur les techniques d’anonymisation", www.cnil.fr/fr/le-g29-publie-un-avis-sur-les-techniques-danonymisation

Publié le:
11 May 2022
Temps de lecture:
4 min
Tags
Anonymisation
Pseudonymisation
RGPD
Données synthétiques
DPO
Réseaux
Articles à la une

Celui qui est médecin et veut désigner un DPO

clock 3 min

Expérience patient & e-consentement éclairé (le vrai opt-in !)

clock 3 min

Celui qui veut "Isalid", une solution qui ne peut pas mentir

clock 3 min

Celui qui veut réutiliser les données et informer ses patients

clock 4 min

Le consentement par blockchain : comment ça fonctionne ?

clock 3 min