Datastandardisering
Datastandardisering er en disiplin innen området datakvalitet, hvis formål er å bringe representasjonsformen av dataene over på et standardisert format. Dette slik at dataene lettere kan sammenstilles med andre data av samme type.
Motivasjon rediger
Datastandardisering har i stor oppstått som en følge av vanskelighetene med å sammenstille informasjon fra ulike distribuerte IT systemer. Disse systemene lagrer ofte de samme dataene på forskjellig format.
Anvendelse rediger
Datastandardisering har stor nytteverdi innen dataintegrasjon generelt, hvor mange såkalte heterogene kilder blir sammenstilt.
Ved deduplisering av lister med data, kan det være hensiktsmessig å preprosessere input data, slik at de enkelte forekomstene lagres på en standardisert form, og dermed lar seg sammenligne.
Verktøy rediger
I de senere årene har det blitt utviklet egne verktøy for datastandardisering og integrert funksjonalitet i verktøy for dataintegrasjon (ETL). Disse benytter ofte en blanding av "fuzzy logic" og regelbaserte transformasjoner. Noen verktøy bruker regulære uttrykk, mens andre bruker egne språk.
Eksempler på standardisering rediger
Enkel felt-standardisering rediger
Kilde | Standardisert |
---|---|
5/7-2009 | 2009-07-05 |
5 juli 09 | 2009-07-05 |
5. juli 2009 | 2009-07-05 |
Input | Standardisert |
---|---|
CD pl | CD ROM PLATE |
CD ROM | CD ROM PLATE |
Splitte dataelementer rediger
Ofte er mange forskjellige data lagret i samme feltet. Da kan datastandardisering brukes til å splitte ut de enkelte elementene, slik at disse lagres i separate felter. For eksempel teksten:
Input | Artikkel | Merke | Modell |
---|---|---|---|
SonyEricsson C905 mobiltelefon | Mobiltelefon | SonyEricsson | C905 |
I forbindelse med normalisering, kan slik splitting sees på som å bringe dataene på første normalform.