Terug
RapportnummerRA-MOW-2011-002
TitelOmgaan met ontbrekende data
OndertitelOverzicht van mogelijke oplossingen
AuteursBrenda Wilmots
Yongjun Shen
Elke Hermans
Da Ruan
UitgaveSteunpunt MOW, spoor Verkeersveiligheid 2007-2011
Aantal pagina's33
Datum01/03/2011
ISBN
Taal van het documentEngels
Partner(s)Universiteit Hasselt
WerkpakketAndere: Risicobepaling
Samenvatting

Datasets met werkelijke informatie gaan bijna altijd gepaard met ontbrekende gegevens omwille van verschillende onzekerheden. Dit beperkt onderzoekers in grote mate om klassieke analyses uit te voeren die volledige datamatrices vereisen in de meeste gevallen. Om dit veelvoorkomend probleem in data-analyse op te lossen,werden een aantal alternatieve methodes ontwikkeld gedurende de laatste vijf decennia.

 

Een eenvoudige en veelgebruikte strategie om ontbrekende informatie te behandelen, is het weglaten van cases die ontbrekende waarden bevatten en vervolgens de analyse uit te voeren op de overblijvende data. Ondanks het feit dat dit eenvoudig uit te voeren is en de standaardoptie is bij de grote statistische pakketten, heeft deze benadering toch ernstige beperkingen in termen van het elimineren van bruikbare informatie in de data en het resulteren in vertekening wanneer de gegevens niet volledig willekeurig ontbreken (i.e., not missing completely at random).

 

Later verschoof de interesse naar het uitvoeren van data-imputatie, het proces waarbij ontbrekende waarden in een dataset geschat worden door berekende waarden en waarbij dus een volledige dataset gecreëerd wordt. Enkele voorbeelden van deze werkwijze, gekend als traditionele enkelvoudige imputatie, zijn: onvoorwaardelijk gemiddelde imputatie, regressieimputatie, de indicatormethode, enz. Echter, zelfs wanneer de ontbrekende waarden op die manier worden geïmputeerd of ingevuld, blijft het probleem bestaan dat de onzekerheid die verbonden is aan ontbrekende data niet in rekening wordt gebracht. Daarom is vanaf de jaren 70 er sterke vooruitgang geboekt in het ontwikkelen van statistische procedures voor ontbrekende data en de twee belangrijkste benaderingen, i.e., maximum likelihood schatting en meervoudige imputatie, zijn beschikbaar geworden als bruikbare opties in de belangrijkste softwarepakketten.

 

Meer recent, met de ontwikkeling van computerwetenschap en technologie, zijn enkele artificiële intelligentie technieken ontstaan met betrekking tot het omgaan met ontbrekende informatie, zoals beslissingsbomen, neurale netwerken, fuzzy logic systemen, rough sets enzovoort, dewelke het onderzoek naar ontbrekende data naar een nieuwe fase brengen.

 

In dit rapport worden de belangrijkste ideeën van al deze benaderingen besproken evenals de sterktes en beperkingen van elke benadering. Verder staan we stil bij de beschikbare softwareprogramma’s en wordt er informatie geboden omtrent het selecteren van een bepaalde benadering in de praktijk.

DownloadPDF icon RA-MOW-2011-002.pdf
Lijn

Missie

Het Steunpunt Verkeersveiligheid voert in opdracht van de Vlaamse overheid beleidsondersteunend wetenschappelijk onderzoek uit over verkeersveiligheid. Het Steunpunt

Verkeersveiligheid is een samenwerkingsverband tussen de Universiteit Hasselt, de KU Leuven en VITO, de Vlaamse Instelling voor Technologisch Onderzoek.

Partners

Leuven vito