Datastandardisering

Datastandardisering er en disiplin innen området datakvalitet, hvis formål er å bringe representasjonsformen av dataene over på et standardisert format. Dette slik at dataene lettere kan sammenstilles med andre data av samme type.

Motivasjon

Datastandardisering har i stor oppstått som en følge av vanskelighetene med å sammenstille informasjon fra ulike distribuerte IT systemer. Disse systemene lagrer ofte de samme dataene på forskjellig format.

Anvendelse

Datastandardisering har stor nytteverdi innen dataintegrasjon generelt, hvor mange såkalte heterogene kilder blir sammenstilt.

Ved deduplisering av lister med data, kan det være hensiktsmessig å preprosessere input data, slik at de enkelte forekomstene lagres på en standardisert form, og dermed lar seg sammenligne.

Verktøy

I de senere årene har det blitt utviklet egne verktøy for datastandardisering og integrert funksjonalitet i verktøy for dataintegrasjon (ETL). Disse benytter ofte en blanding av "fuzzy logic" og regelbaserte transformasjoner. Noen verktøy bruker regulære uttrykk, mens andre bruker egne språk.

Eksempler på standardisering

Enkel felt-standardisering

Dato
Kilde	Standardisert
5/7-2009	2009-07-05
5 juli 09	2009-07-05
5. juli 2009	2009-07-05

Tekst
Input	Standardisert
CD pl	CD ROM PLATE
CD ROM	CD ROM PLATE

Splitte dataelementer

Ofte er mange forskjellige data lagret i samme feltet. Da kan datastandardisering brukes til å splitte ut de enkelte elementene, slik at disse lagres i separate felter. For eksempel teksten:

1NF
Input	Artikkel	Merke	Modell
SonyEricsson C905 mobiltelefon	Mobiltelefon	SonyEricsson	C905

I forbindelse med normalisering kan slik splitting sees på som å bringe dataene på første normalform.

Autoritetsdata