Il est souvent difficile, voire impossible, de partager des données dénominalisées entre différentes organisations et chercheurs en raison de contraintes éthiques liées à la confidentialité des répondants. Les jeux de données synthétiques pourraient permettre de simplifier ce partage de données. Cependant, plusieurs méthodes actuelles, qui utilisent des concepts d’imputation de données manquantes, affectent le potentiel d’analyse et la qualité des résultats produits.
Ce projet consiste donc à évaluer les garanties de confidentialité d’une nouvelle méthode de génération de données synthétiques prometteuse. Cette dernière intègre un mécanisme de masquage à une technique d’imputation multiple pour adapter le modèle génératif au risque de chaque observation. En particulier, les risques de divulgation d’attributs, c’est-`a-dire la révélation de certaines valeurs d’attributs en fonction d’autres attributs connus, seront testés.
La faisabilité et la qualité des résultats sera également testée sur un jeu de données fourni par l’Institut de la statistique du Québec.