De noodzaak van een synthetische populatie voor toekomstige modellen

Voor verschillende modeltoepassingen zijn eigenschappen van individuele personen van interesse. Deze eigenschappen zijn door gebrek aan data en privacy-gevoeligheid niet direct ter beschikking. Als deze eigenschappen toch van belang zijn, wordt een synthetische populatie berekend, welke de werkelijke bevolking zo goed mogelijk benaderd. Deze wordt met behulp van een representatieve steekproef en zonale data bepaald.

Sommige populatie synthesizers gebruiken hier een sequentiële benadering, waar voor elke persoon de eigenschappen verdeeld worden volgens de verdeling in de steekproef. Dit gebeurt op een stochastische manier en kan hierdoor per berekening andere resultaten opleveren, die sterk van elkaar afwijken.

Daarnaast worden hierdoor onwaarschijnlijke combinaties van eigenschappen introduceert. Om dit te voorkomen wordt een methodiek toegepast, die ervoor zorgt, dat de zonale data bereikt wordt, maar ook de verdeling van de steekproef zo goed mogelijk behoudt. Deze methode is deterministisch, waardoor er voor dezelfde gegevens ook altijd hetzelfde resultaat berekend wordt en kan met meerdere niveaus (bijvoorbeeld data op persoons- en huishoudniveau) rekening houden.

Download presentaties 2018
Don’t spoil…