Dårlig datakvalitet er en udfordring for mange virksomheder

Den fandens datakvalitet…

For nogle år siden var jeg en del af et projekt, hvor vi skulle hjælpe en organisation med at optegne nogle rammer for en simpel datastrategi.
I bedste konsulentstil var jeg i fuld gang med at afholde en workshop, hvor vi talte om fremtiden… Du ved – snak om alt det data kan gøre for vores virksomhed, hvor vi kan hente data fra, hvordan vi får bygget den rigtige arkitektur m.v. Alt den klassiske snak om at være data-drevet og det enorme potentiale data kan gøre for din virksomhed.

Midt i drømmen om fremtiden blev jeg afbrudt af en deltager, der sagde noget i stil med: “Hvordan skal jeg kunne forestille mig at være datadrevet når jeg ikke engang kan stole på min data i dag?

Selvfølgelig blev jeg nødt til at få ham til at konkretisere, hvad han mente, og hurtigt kom blandt andet følgende udfordringer frem:

  • Der var ikke et samlet sted at hente data fra
  • Data fra forskellige kilder gav forskellige resultater
  • Der var ikke klare definitioner på, hvad forskellige begreber betød, og derfor hvordan de blev beregnet
  • Det var svært at få “ny” data.
  • Data havde mange mangler og fejl

Resultatet var at han – som han selv beskrev det – brugte 90% af sin tid på at rydde op i data og kun 10% til rent faktisk at analysere det.

Tænk lige på omkostningen i det… Og sådan her er det rigtig mange steder. Du kender det nok også selv – jeg gør i hvert fald.

Jagten på den gode datakvalitet

Årsagen til de fleste af hans udfordringer kan nok relateres til to ord – dårlig datakvalitet. Det er i hvert fald ofte den valgte definition når vi skal placere skylden et sted. Men hvad er god datakvalitet? De fleste definitioner beskriver god datakvalitet som data, der er præcise, komplette, tilgængelige og rettidige.

Nå, ikke andet end det? Det lyder simpelt, men i praksis kan det faktisk godt være ret svært at opnå. Data kommer fra flere forskellige kilder, har ofte flere formater og niveauer af detaljer, og når ja, så er der også lige det aspekt, at det ofte er mennesker der skaber data, og derved bidrager til dårlig datakvalitet.

Hvis vi skal sætte nogle flere dimensioner på begrebet datakvalitet, så er nedenstående seks dimensioner af datakvalitet nogle af de mest brugte.

  • Nøjagtighed (Accuracy) – Data skal være korrekt og afspejle de faktiske forhold.
  • Fuldstændighed (Completeness) – Alle nødvendige data skal være til stede uden mangler.
  • Konsistens (Consistency) – Data skal være ensartet på tværs af forskellige systemer og databaser.
  • Aktualitet (Timeliness) – Data skal være tilgængelig på det rette tidspunkt og være opdateret.
  • Gyldighed (Validity) – Data skal overholde foruddefinerede regler og formater.
  • Unikhed (Uniqueness) – Der må ikke være dubletter eller redundant information i datasættet.

Det lyder da lige til, ikke? Lad mig så præsentere dig for dit nye dilemma…

Hvor kan du gå på kompromis med datakvaliteten?

Udfordringen opstår nemlig i at du ikke kan få det hele (med mindre du selvfølgelig prioriterer det strategisk og afsætter nok midler. Altså som i NOK midler). God datakvalitet er en balancegang hvor du må vægte de vigtigste dimensioner og prioritere dem over andre. Det for mig klassiske eksempel er en leder der vil 100% nøjagtige, fuldstændige og unikke data. Det kan vi som analyseafdeling godt levere – det bliver bare først om to måneder. Kan lederen vente eller kan vi gå på kompromis med eksempelvis fuldstændigheden af data for at få det hurtigere?

Min pointe her er at du ikke kan tage en fuld tjekliste og sige at al data skal score ens på dit “datakvalitets-scorecard”. Du bliver nødt til at vurdere de enkelte datapunkter eller datasæt, og sætte individuelle forventninger til datakvalitet.

Hvis du f.eks. har et kø-system som oplyser brugeren om den aktuelle ventetid, så er det måske ikke det vigtigste om brugeren får præsenteret 5 eller 7 minutter. Det er derimod væsentligt at data bliver præsenteret rettidig, så brugeren ikke sidder og ser på ventetiden fra i går.

Hvad vælger du?

Nu er bolden spillet over til dig. Tag et kig på din data og gør dig nogle tanker om hvilke krav I skal sætte til det.
Så lover jeg til gengæld at komme med et opfølgende indlæg, hvor jeg prøver at sætte nogle ord på, hvad man konkret kan gøre for at forbedre den dårlige datakvalitet.

Læs også…