Datakvalitet

Datakvalitet er i de senere årene blitt mer og mer viktig innen IT systemer. Ordet er ofte brukt i betydningen informasjonskvalitet. Data og informasjon er ikke det samme. Data er ikke i seg selv informasjon, men en kilde av verdier som kan settes sammen i en riktig kontekst til å danne informasjon.

DefinisjonRediger

God datakvalitet innebærer at dataene har evnen til å støtte de informasjonsformål de brukes til. Dette innebærer at de må tilfredsstille krav til:

  • Korrekthet (accuracy)
  • Fullstendighet (completeness)
  • Aktualitet (timeliness)
  • Konsistens (consistency)

Tilsvarende engelske begreper i parentes.

Utvidet definisjonRediger

De 4 kriteriene for god datakvalitet er etterhvert godt innarbeidet innen fagfeltet dataintegrasjon. Dette er en grov, generell fremstilling som, med få unntak, gjelder i de fleste sammenhenger. Denne kan tilføyes flere punkter og presiseringer for eksempel:

  • Anvendelighet (versatility)
  • Formatriktighet
  • Presisjon
  • Struktur

Informasjonskvalitet vs. DatakvalitetRediger

God informasjonskvalitet deler flere av kriteriene for god datakvalitet, men har gjerne i tillegg krav om relevans (for en sak), objektivitet og andre mer raffinerte krav. Informasjon er gjerne spesielt rettet mot spesifikke formål, mens data skal kunne tjene flere forskjellige formål.

AktualitetRediger

Datakvalitet har blitt spesielt aktuelt etter at man begynte med distribuerte IT-løsninger, eller klient-tjener løsninger i organisasjoner. Disse systemene er såkalt heterogene kilder til informasjon for organisasjonen. Dvs at de lagrer den samme informasjonen på forskjellige måter, med forskjellig detaljeringsgrad og med vekt på forskjellige sider ved dataene. Dette skaper behov for bearbeiding av ulike sider ved datakvaliteten for å kunne kombinere og konsolidere informasjon fra disse kildene. Det finnes, i tillegg til egne dataintegrasjonsverktøy, som opererer på lavnivå, også større administrasjonssystemer for automatisk datakonsolidering. De to hovedgruppene av slike systemer er Golden Copy systemer og MDM systemer.

VerktøyRediger

Det finnes ulike verktøy på markedet for å håndtere de forskjellige sidene ved datakvalitet. På lavt nivå finnes det verktøy for datastandardisering av mer eller mindre fritekst informasjon, deduplisering av datasett og berikelse av datarader fra eksterne kilder. For de to sistnevnte er det vanlig å bruke såkalt fuzzylogikk, eller fuzzymatching for å kunne sammenligne data.

På høyt nivå finnes det verktøy for å profilere og modellere data, slik at de lagres på en måte som ivaretar konsistens og dataintegritet. Det finnes også verktøy for å overvåke dataintegritet, eller såkalt data auditing.