Datakvalitet refererer til tilstanden til kvalitative eller kvantitative opplysninger. Det er mange definisjoner av datakvalitet, men data anses generelt for å høy kvalitet dersom de er egnet for dets tiltenkte bruk i drift, beslutningstaking og planlegging.

Definisjon rediger

God datakvalitet innebærer at dataene har evnen til å støtte de informasjonsformål de brukes til. Dette innebærer at de må tilfredsstille krav til:

  • Korrekthet (accuracy)
  • Fullstendighet (completeness)
  • Aktualitet (timeliness)
  • Konsistens (consistency)

Tilsvarende engelske begreper i parentes.

Utvidet definisjon rediger

De 4 kriteriene for god datakvalitet er etterhvert godt innarbeidet innen fagfeltet dataintegrasjon. Dette er en grov, generell fremstilling som, med få unntak, gjelder i de fleste sammenhenger. Denne kan tilføyes flere punkter og presiseringer for eksempel:

  • Anvendelighet (versatility)
  • Formatriktighet
  • Presisjon
  • Struktur

Informasjonskvalitet vs. Datakvalitet rediger

Datakvalitet må ikke forveksles med informasjonskvalitet, ettersom data og informasjon er ikke det samme. Data er ikke i seg selv informasjon, men en kilde av verdier som kan settes sammen i en riktig kontekst til å danne informasjon.

God informasjonskvalitet deler flere av kriteriene for god datakvalitet, men har gjerne i tillegg krav om relevans (for en sak), objektivitet og andre mer raffinerte krav. Informasjon er gjerne spesielt rettet mot spesifikke formål, mens data skal kunne tjene flere forskjellige formål.

Aktualitet rediger

Datakvalitet har blitt spesielt aktuelt etter at man begynte med distribuerte IT-løsninger, eller klient-tjener løsninger i organisasjoner. Disse systemene er såkalt heterogene kilder til informasjon for organisasjonen. Dvs at de lagrer den samme informasjonen på forskjellige måter, med forskjellig detaljeringsgrad og med vekt på forskjellige sider ved dataene. Dette skaper behov for bearbeiding av ulike sider ved datakvaliteten for å kunne kombinere og konsolidere informasjon fra disse kildene. Det finnes, i tillegg til egne dataintegrasjonsverktøy, som opererer på lavnivå, også større administrasjonssystemer for automatisk datakonsolidering. De to hovedgruppene av slike systemer er gylden oppføring-systemer og grunndataforvaltnings-systemer.

Verktøy rediger

Det finnes ulike verktøy på markedet for å håndtere de forskjellige sidene ved datakvalitet. På lavt nivå finnes det verktøy for datastandardisering av mer eller mindre fritekst informasjon, deduplisering av datasett og berikelse av datarader fra eksterne kilder. For de to sistnevnte er det vanlig å bruke såkalt fuzzylogikk, eller fuzzymatching for å kunne sammenligne data.

På høyt nivå finnes det verktøy for å profilere og modellere data, slik at de lagres på en måte som ivaretar konsistens og dataintegritet. Det finnes også verktøy for å overvåke dataintegritet, eller såkalt data auditing.

Se også rediger