Étudiant.e
Directeur.e(s) de recherche
Anne-Sophie Charest
François Laviolette
Début du projet
Titre du projet de recherche
Création d'un jeu de données synthétique pour des données de santé
Description

Il est souvent difficile de partager des données dénominalisées entre différentes organisations et chercheurs en raison de contraintes éthiques liées à la confidentialité des répondants. Il peut ainsi s’écouler de longs mois, parfois même des années, entre la rédaction d’un projet de recherche et le début de l’analyse planifiée, ce qui limite la capacité des chercheurs à mener des travaux scientifiques de pointe au moment opportun et contribue à allonger inutilement la formation d’étudiants gradués, entre autres problèmes. Une solution possible est de créer un jeu de données synthétiques à partager aux chercheurs en attente de l’accès au jeu de données original. Ce jeu de données synthétique serait représentatif des données originales, mais créé de façon à ne pas révéler d’information confidentielle sur les répondants. Il permettrait aux chercheurs de se familiariser à l’avance avec les variables mesurées, d’anticiper les difficultés techniques du projet de recherche (stockage, logiciels, gestion des accès), et de planifier de meilleurs protocoles de recherche.

Nous étudions ici les enjeux techniques liés à la création de tels jeux de données synthétiques dans le domaine de la santé. Il faut notamment s’assurer que les modèles statistiques utilisés soient assez flexibles pour bien modéliser les corrélations entre les variables collectées, tout en s’assurant de ne pas sur-ajuster ceux-ci, ce qui pourrait nuire à la protection de la confidentialité. Le travail s’articulera autour de la création d’un jeu synthétique pour un sous-ensemble des données collectées par le Consortium d’identification précoce de la maladie d’Alzheimer - Québec (CIMA-Q), pour qui le partage des données à la communauté de recherche sur la maladie d’Alzheimer canadienne et internationale est un objectif important.
 

Découvrir

Projet en vedette

Le cancer de la prostate est le deuxième cancer le plus fréquent et la cinquième cause de décès par cancer chez les hommes. Pour améliorer les résultats de santé des patients, le traitement doit être personnalisé en se basant sur un pronostic précis. Il existe déjà des nomogrammes permettant d’identifier les patients à faible risque de récidive sur la base d’informations cliniques préopératoires, mais ces outils n’utilisent pas les images médicales des patients.

Lire plus