Génération de données synthétiques préservant la confidentialité à partir de bases de données administratives sur les soins de santé

Étudiant.e

Cynthia Garcia Ybarra

Directeur.e(s) de recherche

Christian Gagné

Co-researcher

Anne-Sophie Charest

Début du projet

2023-01-02

Titre du projet de recherche

Génération de données synthétiques préservant la confidentialité à partir de bases de données administratives sur les soins de santé

Description

Les ensembles de données de santé synthétiques sont utiles pour soutenir le développement de techniques d'analyse de données et d'apprentissage automatique dans le domaine de la santé, en offrant un accès à des données représentatives pour expérimenter et générer des modèles, tout en atténuant les problèmes associés au traitement de données hautement sensibles liées à des sujets humains. Cependant, la performance et l'utilité des méthodes d'analyse de données et d'apprentissage automatique appliquées dépendent de la qualité de ces ensembles de données synthétiques et de leur représentativité du phénomène à modéliser.

L'objectif du projet est de développer des méthodes d'apprentissage automatique pour générer des ensembles de données synthétiques sur les soins de santé qui préservent la distribution et la temporalité des ensembles de données administratives réelles de soins de santé tout en garantissant que la confidentialité des informations sensibles sur les personnes trouvées dans l'ensemble de données réel est préservée. Cela signifie qu'il faut avoir certaines garanties que la capacité d'identifier des personnes réelles à partir de l'ensemble de données original est impossible ou très improbable, et que les attributs des enregistrements réels (par exemple, historique des soins de santé d’individus) ne peuvent pas être déduits de l'ensemble de données synthétiques.

En fonction des garanties que nous pouvons obtenir pour assurer la confidentialité des données médicales ouvertes réelles utilisées pour générer les ensembles de données synthétiques, il serait envisagé de produire des versions synthétiques d’ensembles de données de la RAMQ, et même de les divulguer plus ouvertement à des fins de recherche et d'analyse si cela est jugé acceptable.

Découvrir

Pseudo-médecines et science des données : étude de l’impact des algorithmes apprenants sur la propagation de la désinformation dans le domaine de la santé