Étudiant.e
Directeur.e(s) de recherche
Christian Gagné
Co-researcher
Anne-Sophie Charest
Début du projet
Titre du projet de recherche
Génération de données synthétiques préservant la confidentialité à partir de bases de données administratives sur les soins de santé
Description

Les ensembles de données de santé synthétiques sont utiles pour soutenir le développement de techniques d'analyse de données et d'apprentissage automatique dans le domaine de la santé, en offrant un accès à des données représentatives pour expérimenter et générer des modèles, tout en atténuant les problèmes associés au traitement de données hautement sensibles liées à des sujets humains. Cependant, la performance et l'utilité des méthodes d'analyse de données et d'apprentissage automatique appliquées dépendent de la qualité de ces ensembles de données synthétiques et de leur représentativité du phénomène à modéliser.

L'objectif du projet est de développer des méthodes d'apprentissage automatique pour générer des ensembles de données synthétiques sur les soins de santé qui préservent la distribution et la temporalité des ensembles de données administratives réelles de soins de santé tout en garantissant que la confidentialité des informations sensibles sur les personnes trouvées dans l'ensemble de données réel est préservée. Cela signifie qu'il faut avoir certaines garanties que la capacité d'identifier des personnes réelles à partir de l'ensemble de données original est impossible ou très improbable, et que les attributs des enregistrements réels (par exemple, historique des soins de santé d’individus) ne peuvent pas être déduits de l'ensemble de données synthétiques.

En fonction des garanties que nous pouvons obtenir pour assurer la confidentialité des données médicales ouvertes réelles utilisées pour générer les ensembles de données synthétiques, il serait envisagé de produire des versions synthétiques d’ensembles de données de la RAMQ, et même de les divulguer plus ouvertement à des fins de recherche et d'analyse si cela est jugé acceptable.

Découvrir

Projet en vedette

Membre étudiant : Gabriel Couture

Ce projet consiste à établir les bonnes pratiques en gestion des données de santé et à construire une infrastructure logicielle afin de les appliquer.

Nous avons développé des pipelines qui permettent de récupérer quotidiennement les données de traitements de curiethérapie afin de calculer et stocker leurs indices dosimétriques dans une base de données dédiée à la recherche. Ces indices sont essentiels à la planification des traitements en radiothérapie et à l’estimation de leur qualité.

Lire plus