Dataprofilering er aktiviteten å lage et forståelig bilde av innholdet og strukturen til en datakilde.

Med millioner av rader med data kan ikke en kilde beskrives uten en viss form for aggregering av måltall, eller sagt på en annen måte; at man presenterer en profil av datainnholdet og/eller strukturen.

Motivasjon rediger

Motivasjonen for dataprofilering som eget felt innen IT har i hovedsak kommet fra frustrasjonen datavarehusutviklere hadde i forbindelse med uforutsigbar datakvalitet i kilder. Forretningslogikk for lasting av data til datavarehusene ble (og blir) ofte gjort mer med utgangspunkt i antagelser enn fakta om egenskapene til kilden. For eksempel ved å se på databasemodeller for kilden. Problemet er at slike modeller ofte ikke er oppdatert, eller at tilstrekkelig referanseintegritet ikke er implementert.

Ved å bruke profilering av kilden kan man på forhånd få kunnskap om kilden basert på undersøkelse av reelt datainnhold.

Forskjellige måter å profilere på rediger

Datainnhold rediger

Innholdsmessig kan dette kan aggregeres i form av frekvenslister over forekomster av forskjellige verdier. I noen tilfeller er dette hensiktsmessig, for eksempel hvis man skal liste forskjellige verdier for produktnavn:

Navn Antall
Sony Ericcsson C905 93
SE 905 4
Nokia N95 123
N95 33
... ..

Datatyper, formater og mønstre rediger

Tekstfelter kan ofte inneholde mange forskjellige datatyper eller formater. For eksempel datoer, emailadresser, web-adresser, etc.. Profilering kan avdekke hvilken type format, mønster, datatype eller kjente informasjonstyper (web, mail, navn, osv.) det er snakk om.

Semantikk rediger

Profilering som avdekker mønstre basert på frekvensanalyser av ordsammensetninger. Dette kalles semantisk profilering og er et nyere tilskudd til profileringsfeltet.

Struktur rediger

Å beskrive struktur er vanskelig uten å ha en modell som et fast holdepunkt. Det vanligste er å påvise i hvilken grad en kilde innordner seg eller avviker fra normalformene 1-3 for relasjonsdatabaser.

Ved å bruke en normalisert datamodell med full referanseintegritet, kan man oppnå en meget stor grad av forutsigbarhet ved uttrekk av data. Bill Inmon, som er anerkjent som opphavsmannen til datavarehus, har som krav at datavarehusets grunndata skal lagres på 3 normalform, slik at de lettere kan trekkes opp i rapporteringskuber og lignende forretningsinnsikts-strukturer.

Dataprofilering kan avdekke underliggende strukturer i en eksisterende database basert på innhold.