Étudiant.e
Directeur.e(s) de recherche
Anne-Sophie Charest
François Laviolette
Début du projet
Titre du projet de recherche
Création d'un jeu de données synthétique pour des données de santé
Description

Il est souvent difficile de partager des données dénominalisées entre différentes organisations et chercheurs en raison de contraintes éthiques liées à la confidentialité des répondants. Il peut ainsi s’écouler de longs mois, parfois même des années, entre la rédaction d’un projet de recherche et le début de l’analyse planifiée, ce qui limite la capacité des chercheurs à mener des travaux scientifiques de pointe au moment opportun et contribue à allonger inutilement la formation d’étudiants gradués, entre autres problèmes. Une solution possible est de créer un jeu de données synthétiques à partager aux chercheurs en attente de l’accès au jeu de données original. Ce jeu de données synthétique serait représentatif des données originales, mais créé de façon à ne pas révéler d’information confidentielle sur les répondants. Il permettrait aux chercheurs de se familiariser à l’avance avec les variables mesurées, d’anticiper les difficultés techniques du projet de recherche (stockage, logiciels, gestion des accès), et de planifier de meilleurs protocoles de recherche.

Nous étudions ici les enjeux techniques liés à la création de tels jeux de données synthétiques dans le domaine de la santé. Il faut notamment s’assurer que les modèles statistiques utilisés soient assez flexibles pour bien modéliser les corrélations entre les variables collectées, tout en s’assurant de ne pas sur-ajuster ceux-ci, ce qui pourrait nuire à la protection de la confidentialité. Le travail s’articulera autour de la création d’un jeu synthétique pour un sous-ensemble des données collectées par le Consortium d’identification précoce de la maladie d’Alzheimer - Québec (CIMA-Q), pour qui le partage des données à la communauté de recherche sur la maladie d’Alzheimer canadienne et internationale est un objectif important.
 

Découvrir

Projet en vedette

Membre étudiant : Gabriel Couture

Ce projet consiste à établir les bonnes pratiques en gestion des données de santé et à construire une infrastructure logicielle afin de les appliquer.

Nous avons développé des pipelines qui permettent de récupérer quotidiennement les données de traitements de curiethérapie afin de calculer et stocker leurs indices dosimétriques dans une base de données dédiée à la recherche. Ces indices sont essentiels à la planification des traitements en radiothérapie et à l’estimation de leur qualité.

Lire plus