Datastandardisering

Datastandardisering er en disiplin innen området datakvalitet, hvis formål er å bringe representasjonsformen av dataene over på et standardisert format. Dette slik at dataene lettere kan sammenstilles med andre data av samme type.

Motivasjon rediger

Datastandardisering har i stor oppstått som en følge av vanskelighetene med å sammenstille informasjon fra ulike distribuerte IT systemer. Disse systemene lagrer ofte de samme dataene på forskjellig format.

Anvendelse rediger

Datastandardisering har stor nytteverdi innen dataintegrasjon generelt, hvor mange såkalte heterogene kilder blir sammenstilt.

Ved deduplisering av lister med data, kan det være hensiktsmessig å preprosessere input data, slik at de enkelte forekomstene lagres på en standardisert form, og dermed lar seg sammenligne.

Verktøy rediger

I de senere årene har det blitt utviklet egne verktøy for datastandardisering og integrert funksjonalitet i verktøy for dataintegrasjon (ETL). Disse benytter ofte en blanding av "fuzzy logic" og regelbaserte transformasjoner. Noen verktøy bruker regulære uttrykk, mens andre bruker egne språk.

Eksempler på standardisering rediger

Enkel felt-standardisering rediger

Dato
Kilde Standardisert
5/7-2009 2009-07-05
5 juli 09 2009-07-05
5. juli 2009 2009-07-05
Tekst
Input Standardisert
CD pl CD ROM PLATE
CD ROM CD ROM PLATE

Splitte dataelementer rediger

Ofte er mange forskjellige data lagret i samme feltet. Da kan datastandardisering brukes til å splitte ut de enkelte elementene, slik at disse lagres i separate felter. For eksempel teksten:

1NF
Input Artikkel Merke Modell
SonyEricsson C905 mobiltelefon Mobiltelefon SonyEricsson C905

I forbindelse med normalisering, kan slik splitting sees på som å bringe dataene på første normalform.