Il est souvent difficile de partager des données dénominalisées entre différentes organisations et chercheurs en raison de contraintes éthiques liées à la confidentialité des répondants. C'est une réalité fréquente dans le domaine de la santé, étant donné la sensibilité inhérente de ce type de données. Une option dans ce cas est de ne pas partager directement les données, mais plutôt de donner accès à celles-ci via un outil qui contrôle le risque de divulgation des requêtes effectuées et permet seulement celles qu'il considère sécuritaires. DataSHIELD est un tel outil qui a été proposé pour protéger la confidentialité d'un jeu de données, et qui s'utilise via le logiciel statistique R. Il permet en outre de faire des analyses statistiques sur plusieurs jeux de données hébergés à des endroits différents, toujours en assurant la confidentialité des répondants.
Dans ce projet, on s'intéresse aux garanties de confidentialité fournies par le logiciel, et aux limites de celui-ci.
On souhaite notamment établir des principes pour guider le choix des paramètres de contrôle de la divulgation offerts avec l'outil, et comprendre plus précisément l'impact de ces contrôles sur la qualité des statistiques descriptives, modèles linéaires et graphiques produits.