Hoe anoniem zijn geanonimiseerde datasets?

01 augustus 2019

Hoewel datasets door bedrijven en overheden vaak worden geanonimiseerd, blijkt uit een recent onderzoek dat nieuwe modellen toch in staat zijn om iemand op basis van deze geanonimiseerde datasets te identificeren. In hoeverre zijn deze datasets daadwerkelijk anoniem? En is de privacy van de betrokkene door gebruik van de gebruikelijke methodes wel voldoende gewaarborgd?

Bedrijven en overheden maken regelmatig geanonimiseerde datasets beschikbaar, variërend van financiële en medische datasets tot uitslagen van enquêtes. Die datasets zijn onmisbaar voor het doen van belangrijk medisch en sociaalwetenschappelijk onderzoek en dienen dan ook een legitiem doel. Hoewel deze datasets worden geanonimiseerd, blijkt uit een recent onderzoek dat nieuwe modellen toch in staat zijn om iemand op basis van die geanonimiseerde datasets te identificeren. In hoeverre zijn deze geanonimiseerde datasets ook daadwerkelijk anoniem? Is de privacy van de betrokkene door gebruik van de gebruikelijke methodes wel voldoende gewaarborgd?

Het onderzoek

Voor het onderzoek werd een model gecreëerd dat bestond uit 210 verschillende datasets afkomstig van vijf verschillende bronnen. Het model kon een nauwkeurige schatting maken of een specifieke persoon correct kon worden geïdentificeerd op basis van deze geanonimiseerde datasets. Bij het gebruik van grote hoeveelheden data bleek de kans dat iemand correct was door het model geïdentificeerd zeer hoog. Wanneer er 15 demografische kenmerken werden gebruikt, bleek de kans op een correcte identificatie 99.98%. Maar ook wanneer ‘slechts’ gebruik werd gemaakt van de postcode, de geboortedatum, het geslacht en het aantal kinderen, bleek dit percentage 79,4%.

Het ‘anonimiseren’ van datasets

Op dit moment worden datasets geanonimiseerd door het depersonaliseren en opsplitsen van de data. Lang werd gedacht dat op deze manier de privacy van betrokkene gewaarborgd werd. Volgens de Algemene Verordening Gegevensbescherming (AVG) valt de verwerking van anonieme data voor statistische en onderzoeksdoeleinden namelijk niet onder de AVG. Het gevolg hiervan is dat de datasets door iedereen kunnen worden gebruikt en gedeeld.

Uit het eerder aangehaalde onderzoek blijkt echter dat deze datasets niet voldoen aan de vereisten krachtens de AVG om als geanonimiseerd te kwalificeren. De AVG beschouwt een dataset pas als anoniem, indien de gegevens geen betrekking hebben op een geïdentificeerde of identificeerbare natuurlijke persoon en de betrokkene niet of niet meer identificeerbaar is. Uit het onderzoek blijkt echter dat, ook met een incomplete dataset, een persoon wél identificeerbaar is. De datasets bevatten daarom geen anonieme gegevens, maar gepseudonimiseerde persoonsgegevens.

Gepseudonimiseerde persoonsgegevens

Bij het pseudonimiseren van persoonsgegevens kunnen gegevens alleen nog herleidbaar zijn tot een specifiek persoon als er gebruik wordt gemaakt van aanvullende gegevens. Bij het gebruik van datasets is dit het geval. Anders dan anonieme gegevens, vallen pseudonime persoonsgegevens juist wel onder de AVG. De verwerkingsverantwoordelijke moet bij het pseudonimiseren rekening houden met informatie uit externe bronnen en met de ontwikkeling van nieuwe databronnen en -methoden waarmee pseudonieme gegevens alsnog te herleiden kunnen zijn. Het onderhavige onderzoek laat duidelijk zien dat grote instellingen hier op dit moment onvoldoende rekening mee houden wanneer een dataset wordt geopenbaard.

Conclusie

Uit het onderzoek blijkt dat de geanonimiseerde gegevens met behulp van een vergelijkbaar model kunnen worden gebruikt voor bijvoorbeeld social engineering en/of identiteitsfraude. Dit onderzoek is een treffend voorbeeld van hoe het gat tussen de technologische ontwikkelingen en de toepasselijke wet- en regelgeving alsmaar groter wordt.