Illustrationsbillede indhold

Hvor stor er SMILE?

Alternativet til mikrosimuleringsmodeller er såkaldte gruppebaserede modeller, som eksempelvis DREAMgruppens befolkningsfremskrivning, uddannelsesfremskrivning og socioøkonomiske fremskrivning.

I gruppebaserede modeller kan antallet af grupper og dermed størrelsen af modellen dog hurtigt øges betydeligt. Med 120 aldre, to køn, fem oprindelsesgrupper, seks uddannelsesgrupper, ni arbejdsmarkedsgrupper og 98 kommuner har en sådan model 120 ∙ 2 ∙ 5 ∙ 6 ∙ 9 ∙ 98  = 6.350.400 grupper. Mens en gruppebaseret model således hurtigt kan eksplodere størrelsesmæssigt, ligger antallet af individer i en mikrosimulationsmodel nogenlunde fast. For den danske befolkning fremskrives omkring 5.6 mio. individer og befolkningstallet ændres kun med få procent hvert år uanset, hvor mange karakteristika, de enkelte individer beskrives med. Dette imødekommer en række af de udfordringer, som i gruppebaserede modeller begrænser detaljeringgraden og udviklingspotentialet, jf. Hansen m.fl. (2013).

Som nævnt ovenfor, så kan de overgangssandsynligheder, der er knyttet til de enkelte hændelser i SMILE, nuanceres på stort set alle de personspecifikke karakteristika, der findes i modellen. Dette giver i udgangspunktet anledning til et curse-of-dimensionality problem, når overgangssandsynlighederne skal estimeres. Dette betyder, at data er meget tyndt for visse kombinationer af karakteristika. Eksempelvis haves ikke på nuværende tidspunkt særligt mange efterkommere i befolkningen med en lang videregående uddannelse og det er derfor vanskeligt at estimere en overgangssandsynlighed for denne gruppe. I SMILE løses denne udfordring dog ved anvendelse af en række estimationsteknikker, der reducerer dimensionaliteten i adfærdsmønsteret ved at sammenlægge grupper, der vurderes at være statistisk ens mht. en given hændelse.

Dette kan illustreres ved fastlæggelse af boligens anvendelse (dvs. parcelhus, rækkehus, etagebolig etc.), når familierne udsættes for boligvalgshændelsen i forbindelse med flytning. Der er i alt 8 typer af anvendelse, og der er potentielt 34*1018 (trillioner eller million million milliarder) mulige sandsynligheder givet de forklarende variable, der omfatter:

  • de voksnes gennemsnitsalder,
  • fra- og tilflytningskommuner,
  • uddannelsesniveau for begge voksne,
  • herkomst for begge voksne,
  • arbejdsmarkedstilkytning for begge voksne,
  • børn i familien eller ej.

Ved således at anvende en varians-reducerende estimationsmetode kaldet CTREE, reduceres antallet af estimerede sandsynligheder til 4.393. Det vurderes med andre ord, at sandsynligheden for at vælge en bestemt anvendelsestype kun antager 4.393 forskellige værdier og der dermed er en lang række af persongrupper, der dermed har den samme sandsynlighed.