Datastandardisering
Denne artikkelen mangler kildehenvisninger, og opplysningene i den kan dermed være vanskelige å verifisere. Kildeløst materiale kan bli fjernet. Helt uten kilder. (10. okt. 2015) |
Datastandardisering er en disiplin innen området datakvalitet, hvis formål er å bringe representasjonsformen av dataene over på et standardisert format. Dette slik at dataene lettere kan sammenstilles med andre data av samme type.
Motivasjon
redigerDatastandardisering har i stor oppstått som en følge av vanskelighetene med å sammenstille informasjon fra ulike distribuerte IT systemer. Disse systemene lagrer ofte de samme dataene på forskjellig format.
Anvendelse
redigerDatastandardisering har stor nytteverdi innen dataintegrasjon generelt, hvor mange såkalte heterogene kilder blir sammenstilt.
Ved deduplisering av lister med data, kan det være hensiktsmessig å preprosessere input data, slik at de enkelte forekomstene lagres på en standardisert form, og dermed lar seg sammenligne.
Verktøy
redigerI de senere årene har det blitt utviklet egne verktøy for datastandardisering og integrert funksjonalitet i verktøy for dataintegrasjon (ETL). Disse benytter ofte en blanding av "fuzzy logic" og regelbaserte transformasjoner. Noen verktøy bruker regulære uttrykk, mens andre bruker egne språk.
Eksempler på standardisering
redigerEnkel felt-standardisering
redigerKilde | Standardisert |
---|---|
5/7-2009 | 2009-07-05 |
5 juli 09 | 2009-07-05 |
5. juli 2009 | 2009-07-05 |
Input | Standardisert |
---|---|
CD pl | CD ROM PLATE |
CD ROM | CD ROM PLATE |
Splitte dataelementer
redigerOfte er mange forskjellige data lagret i samme feltet. Da kan datastandardisering brukes til å splitte ut de enkelte elementene, slik at disse lagres i separate felter. For eksempel teksten:
Input | Artikkel | Merke | Modell |
---|---|---|---|
SonyEricsson C905 mobiltelefon | Mobiltelefon | SonyEricsson | C905 |
I forbindelse med normalisering kan slik splitting sees på som å bringe dataene på første normalform.