Illustrationsbillede indhold

Imputation

En fremskrivning i SMILE baseres på en startbefolkning fra et historisk år. I de tilfælde, hvor der mangler værdier for data i startåret, bruges imputation til at danne sandsynlige værdier.

Hændelser i SMILE er primært bestemt af estimerede overgangssandsynligheder, der typisk afhænger af, hvilke karakteristika en agent har året før. Derfor er det nødvendigt at beskrive startbefolkningen med alle variable, der indgår i bestemmelsen af modellens overgangssandsynligheder. I de tilfælde, hvor der mangler værdier for data i startåret bruges imputation.

Der er generelt tre årsager til, at værdier for data må imputeres:

  1. Værdien er ikke tilgængelig for alle personer i registerdata.
  2. Værdien kommer fra et survey, der ikke dækker hele befolkningen og sandsynligvis heller ikke er lavet i samme år, som SMILEs simulering starter i.
  3. Nogle værdier er af juridiske årsager ikke mulige at opnå tilgang til på serveren, hvor SMILE befinder sig.

Ved imputering indsættes en kunstig værdi, som gerne skal en rimelig repræsentation, af hvad værdien rent faktisk kunne have været. Dette kan gøres ved brug af relative simple metoder. Eksempelvis kunne man vælge gennemsnitsværdien eller medianen af timelønnen og indsætte denne for alle personer, der mangler en timeløn. En sådan simpel tilgang vil typisk ikke være særlig præcis. Derfor vil det ofte være hensigtsmæssigt at bruge mere avancerede algoritmer. For timeløn kan det være oplagt at bruge en regressionsmodel samt et tilfældigt trukket fejlled, mens en manglende uddannelsesoplysning kan imputeres ved en klassifikationsmodel. Det er også en mulighed at trække en tilfældig værdi fra en historisk fordeling. En sidste mulighed kan være at sætte manglende værdier til en default værdi. Eksempelvis sættes en manglende værdi for højst fuldførte uddannelse i praksis til ”Grundskole” i SMILEs startår. For estimerede imputationsmodeller anvendes samme procedure som ved estimation af overgangssandsynligheder. Denne procedure kan der læses nærmere om her.

Se beskrivelse af overgangssandsynligheder