Het breed beschikbaar stellen van overheidsdata kan alleen als dit op een verantwoorde manier gebeurt. Hierbij speelt de bescherming van de privacy van de betrokkenen een belangrijke rol. Zeker als het gaat om gevoelige gegevens over kwetsbare burgers. In de open data context, waarin de beschikbaar gestelde gegevens in principe toegankelijk zijn voor iedereen, inclusief mogelijke kwaadwillenden, is privacybescherming extra belangrijk. Het beschermen van datasets is niet alleen belangrijk in de context van open data, maar ook relevant voor andere soorten van datadelingen en –verwerkingen, bijvoorbeeld bij het delen van datasets tussen (overheids-)organisaties en voor datagedreven beleidsontwikkeling. Door de inwerkingtreding van de Algemene Verordening Gegevensbescherming (AVG) in 2018 is privacybescherming en het zorgvuldig omgaan met persoonsgegevens immers belangrijker geworden.
Tegelijkertijd zien we dat, doordat de hoeveelheid beschikbare data groter is dan ooit en razendsnel blijft groeien, de kans op privacyinbreuken steeds groter wordt. Dit komt doordat het enerzijds voor grotere datasets, met een groot aantal mogelijk afhankelijke attributen, moeilijker is om de risico’s die verborgen zijn in de dataset (de intrinsieke risicofactoren) te detecteren. Anderzijds maakt het beschikbaar komen van steeds meer en steeds grotere datasets het moeilijker om de risico’s die zich kunnen voordoen bij het combineren van de data met andere datasets (de extrinsieke risicofactoren) in te schatten. De genoemde risico’s kunnen ertoe leiden dat er (per ongeluk en/of in de toekomst) gevoelige informatie over personen in de dataset wordt vrijgegeven. Zo kunnen statistische onthullingsmethoden en datakoppelingen gebruikt worden om personen in de dataset te identificeren of (nieuwe) persoonlijke informatie over hen te achterhalen. Dit kan zelfs als direct identificerende gegevens zoals namen uit de data zijn verwijderd, met name door aanvullende informatiebronnen te gebruiken. De combinatie van beroep en woonplaats in een dataset kan bijvoorbeeld de identiteit van een persoon onthullen. Voor de combinatie ‘burgemeester’ en ‘Amsterdam’ is dit niet moeilijk, doordat dit eenvoudig (online) te achterhalen is. Het is dan bekend welke gegevens in de gedeelde dataset over de betreffende persoon gaan.