Sensibles ou pas ces données de patients ?

25 mai 2020 - 10 minutes de lecture

Cover Image

L'accès aux données de santé

La production de données massives, pertinentes et sécurisées est une aubaine pour le futur de la recherche en santé et celui de la prise en charge médicale. Elle va en effet permettre l’émergence non seulement d’une recherche exploratoire sans a priori et à grande échelle mais aussi d’une nouvelle approche des diagnostics et prises en charge des patients. Ce virage va clairement dépendre de nos capacités à développer et s’approprier les outils indispensables du numérique de façon à saisir, stocker, sécuriser, partager, visualiser et analyser les données massives générées en permanence et appliquer les conclusions de cette recherche non seulement à la population générale et aux politiques de santé mais aussi et surtout au patient individuel.

Les données massives de santé font partie de ce que l’on nomme le big data qui désigne « des ensembles de données devenus si volumineux qu'ils dépassent l'intuition et les capacités humaines d'analyse et même celles des outils informatiques classiques de gestion de base de données ou de l'information » [1]. Beaucoup reste à faire dans ce domaine et les enjeux du big data sont multiples (comme nous le rappelions dans un blog précédent), y incluant la sécurité et l’accès aux données de santé.

Qu’est-ce qu’une donnée de santé, une donnée sensible ?

Le Règlement Général sur la Protection des Données (RGPD), entré en vigueur le 25 mai 2018, définit les données de santé comme « toutes données à caractère personnel relatives à la santé physique ou mentale d’une personne ou à la prestation de services de santé à cette personne » [2]. Elles concernent donc un individu précis identifié de manière unique à des fins de santé. Des informations qui peuvent avoir des incidences particulières critiques sur la vie privée d’une personne si elles étaient révélées sont dites sensibles. La Commission Nationale de l’Informatique et des Libertés (CNIL) définit les données personnelles sensibles comme « des informations qui révèlent la prétendue origine raciale ou ethnique, les opinions politiques, les convictions religieuses ou philosophiques ou l'appartenance syndicale, ainsi que le traitement des données génétiques, des données biométriques aux fins d'identifier une personne physique de manière unique, des données concernant la santé ou des données concernant la vie sexuelle ou l'orientation sexuelle d'une personne physique » [3]. Le RGPD [2] d’abord interdit de recueillir ou d’utiliser ces données (dans son article 9), ensuite l’autorise dans de nombreuses situations dérogatoires (Encadré 1).


Encadré 1 : Conditions d’utilisation de données sensibles [2] [3].
•    la personne concernée a donné son consentement explicite au traitement de ses données,
•    le traitement est nécessaire aux fins de l’exécution des obligations et des droits propres au responsable du traitement ou à la personne concernée en matière de droit du travail, de la sécurité sociale et de la protection sociale,
•    le traitement est nécessaire à la sauvegarde des intérêts vitaux de la personne concernée,
•    le traitement est effectué, dans le cadre de leurs activités légitimes et moyennant les garanties appropriées, par une fondation, une association ou tout autre organisme à but non lucratif et poursuivant une finalité politique, philosophique, religieuse ou syndicale, à condition que les données à caractère personnel ne soient pas communiquées en dehors de cet organisme sans le consentement des personnes concernées,
•    le traitement porte sur des données à caractère personnel qui sont manifestement rendues publiques par la personne concernée,
•    le traitement est nécessaire à la constatation, à l’exercice ou à la défense d’un droit en justice,
•    le traitement est nécessaire pour des motifs d’intérêt public important, sur la base du droit de l’Union ou du droit d’un ‘État membre qui doit être proportionné à l’objectif poursuivi,
•    le traitement est nécessaire aux fins de la médecine préventive ou du travail,
•    le traitement est nécessaire pour des motifs d’intérêt public dans le domaine de la santé publique,
•    le traitement est nécessaire à des fins archivistiques dans l’intérêt public, à des fins de recherche scientifique ou historique ou à des fins statistiques.

Que sont la dés-identification, l’anonymisation, la pseudonymisation, le cryptage ?

Les données à caractère personnel collectées doivent faire l’objet d’un traitement particulier (anonymisation ou dés-identification) de telle façon que celles-ci ne puissent plus être attribuées à une personne identifiable sans avoir recours à des informations supplémentaires (conservées séparément et soumises à des mesures techniques et organisationnelles). Par souci de sécurité, les données peuvent être échantillonnées et fractionnées. La pseudonymisation correspond au remplacement des informations d’identification par des identifiants artificiels (les données ne contiennent alors plus d'identifiants évidents mais elles sont ré-identifiables). Le cryptage apporte une sécurité supplémentaire.

Quels sont les possibilités et risques de ré-identification ? Dans un récent article de Nature Communications [4] les auteurs démontrent que la ré-identification des patients à partir de 15 paramètres démographiques (dont l'âge, le sexe, la date de naissance, l'état matrimonial, le code postal) et les mathématiques modernes est possible dans 99,98% de 210 populations larges, faites de milliers de sujets dés-identifiés. Le modèle statistique utilisé montre la facilité avec laquelle ceci est réalisable pour n'importe quel ensemble de données. Leur code est disponible sur internet afin que d'autres puissent reproduire leurs résultats. Ce n'est que si un ensemble de données est dépourvu d'éléments suffisants pour garantir que les individus ne peuvent plus être identifiés qu'il peut être considéré comme «anonyme» par le RGPD.

La plateforme AdviceMedica

La plateforme AdviceMedica d'échanges entre professionnels de santé génère des données de cas complexes résolus de façon collective ; elle n’expose pas à la divulgation de données sensibles. En pratique, les utilisateurs d’AdviceMedica reçoivent tous les matins un email, sous forme d’une newsletter correspondant aux réseaux d’intérêt qu’ils ont pré-choisis, dans laquelle des médecins décrivent leurs cas complexes qu’ils ont besoin de résoudre rapidement ; le patient en question n’est pas identifié, seuls le sont l’âge, les quelques éléments de l’histoire clinique et les premiers résultats paracliniques qui illustrent le cas. Les médecins qui ont déjà rencontré un cas similaire répondent s’ils le souhaitent et les différentes réponses sont envoyées chaque matin au fur et à mesure qu’elles arrivent. Les cas résolus sont stockés. Grâce aux outils de l’intelligence artificielle, la recherche de similarités et une aide à la décision y sont associés. Ces données n’entrent pas dans la notion juridique de données de santé car elles ne concernent pas un individu précis identifié de manière unique et donc aucune conséquence ne peut être tirée au regard de l’état de santé de la personne concernée. Au sens juridique du terme, il n’y a donc pas de données personnelles sensibles, la loi ne s’applique donc pas ici.

Si les données d’AdviceMedica ne sont pas sensibles, dans quelles conditions extrêmes elles pourraient le devenir ?… Poussons la réflexion, car il est en effet devenu clair que la notion de données de santé est désormais large, et est « à apprécier, au cas par cas, compte tenu de la nature des données recueillies » [3]. AdviceMedica ne collecte jamais de données personnelles, les patients ne sont directement pas identifiables ; sa charte, signée par tous les utilisateurs, est explicite, et une modération manuelle des questions et des pièces jointes a lieu avant tous les envois. Le cas est décrit succinctement, l’individu n’a jamais été identifié ; il ne peut pas contenir de données personnelles. Les données échangées ne sont pas sensibles, on ne peut pas remonter à la personne. Là encore, la charte et la modération en sont des garants supplémentaires. De façon conservatoire puisqu’il est impossible de prouver que ceci n’est pas faisable, diverses mesures ont été prises (Encadré 2).

Encadré 2 : Mesures supplémentaires de protection des données d’AdviceMedica.
•    mise en place d’une charte explicite,
•    modération manuelle des cas avant les envois quotidiens, avec une attention particulière pour les photos (pas de bijoux, pas d’arrière-plan reconnaissable, pas d’yeux), les âges >89 ans (qui ne seront pas mentionnés car moins de 100000 français ont plus de 92 ans), les métiers très rares, pas de code postal bien sûr (pour tous et surtout lorsqu’une maladie rare est concernée),
•    suppression des noms et régions d’exercice des médecins demandeurs dès que les cas sont stockés (à intervalles réguliers nous lançons une routine qui supprime de la base de données l’identité du médecin questionneur),
•    encryptage de la base de cas (ainsi, en cas de vol de données, il est extrêmement long de décrypter la base pour l’utiliser pour identifier des personnes physiques).

  1. https://fr.wikipedia.org/wiki/Big_data (consulté le 21.11.2019).
  2. https://donnees-rgpd.fr/definitions/ (consulté le 07.12.2019).
  3. https://www.cnil.fr/fr/definition/donnee-sensible (consulté le 07.12.2019).
  4. Rocher L, Hendrickx JM, de Montjoye Y-A. Estimating the success of re-identifications in incomplete datasets using generative models. Nature Com 2019; 10: 1-9.

Vignette auteur

Pascal Demoly

Coordinateur scientifique pour AdviceMedica.
Docteur en médecine, professeur de pneumologie, allergologue et chef de département au CHU de Montpellier.