Il arrive souvent que le partage de données soit limité par des enjeux de confidentialité. C'est une réalité fréquente dans le domaine de la santé, étant donné la sensibilité inhérente de ce type de données. Lorsque le partage du jeu de données original est impossible, une méthode qu'on peut utiliser est de générer un jeu de données synthétiques, qui contient le plus possible une information statistique similaire à celle du jeu de données original, mais qui fournit des données sur de faux individus de façon à protéger la confidentialité des répondants. Une façon de garantir que ces données synthétiques protègent effectivement les répondants, c'est d'utiliser la confidentialité différentielle, une mesure rigoureuse du risque de divulgation d'information confidentielle.
Ce projet s'intéresse à comment analyser ces jeux de données synthétiques pour obtenir des résultats statistiques valides, les méthodes classiques d'inférence devant être modifiées pour tenir compte de la variabilité additionnelle ajoutée par la génération du jeu de données synthétiques.
Étudiant.e
Directeur.e(s) de recherche
Anne-Sophie Charest
Co-researcher
Venkata Manem
Début du projet
Titre du projet de recherche
Analyse statistique de jeux de données synthétiques satisfaisant la confidentialité différentielle
Description