Datamaske

type distribuert arkitektur for analytisk datahåndtering

En datamaske (engelsk: data mesh) er et domeneorientert dataarkitektur-paradigme for administering av stordata som et alternativ til datasjøer (data lakes) og tradisjonelle datavarehus, og er ment å kombinere noen av fordelene fra datareservoar og datavarehus. En datamaske kan bestå av et eller flere datavarehus og/eller datasjøer, samt felles verktøy og standarder for disse. En viktig komponent i datamasken er et tilkoblingslag for å kontrollere, administrere og støtte datatilgang på tvers av organisasjonen.

Datamasken er en type dataplattformarkitektur som omfavner allestedsnærværende data i bedriften ved å utnytte et domeneorientert og selvbetjent design. Hovedtanken med en datamaske er at man istedenfor å bygge en stor sentralisert dataplattform lar bedriftsdataarkitekter lage distribuerte datanettverk. Dette gjøres ved at datamasken fødererer dataeierskap blant dataeierne, som i sin tur holdes er ansvarlige for å levere dataene som et produkt. Hvert av domenene har da sine egne ETL-kommandokøer (ETL-pipelines), men deler på lagring, katalogisering og tilgangskontroll til rådataene. Datamasker kan hjelpe med å unngå informasjonssiloer.

Design basert på datamasker har blant annet ha blitt tatt i bruk av nettbutikken Zalando.[1]

Historie rediger

Begrepet data mesh ble først definert av Zhamak Dehghani i 2019,[2] mens hun jobbet som prinsipalkonsulent hos teknologiselskapet ThoughtWorks. Hun har fått støtte for idéene sine fra Agile Lab og Deloitte.[3]

Navnet datamaske kommer fra maskenettverk, som i likhet med datamaske-arkitekturen er basert på en desentralisert nettverksarkitektur. Det domeneorienterte og selvbetjente designet låner dermed den amerikanske teknologen Eric Evans sin teori om domenedrevet design som han lanserte i 2003.[4]

Prinsipper rediger

Datamasker er definert etter prinsipper som:

Domeneorientert, desentralisert dataeierskap og arkitektur
Hvert domene håndterer sine egne kommandokøer eller kanaler (data pipelines).
Data som produkt
(DaaP, data as a product)[5] Hvert domene må definere en tjenestenivåavtale og kvalitetsmål som de kan garantere for sine forbrukere.
Selvbetjent datainfrastruktur som en platform
Muliggjør blant annet selvbetjent forretningsinnsikt (self-service business intelligence). Abstraherer kompliserte tekniske detaljer ved å ha en sentral plattform med domeneagnostisk datainfrastruktur som håndterer motorene for data pipeline-ene, lagring og strømmeinfrastruktur. Imidlertid er hvert av domenene ansvarlige for å gjøre seg nytte av disse komponentene for å lage spesialtilpassede ETL-pipelines.
Føderert forvaltning av dataressurser
I motsetning til en monolittiske datainfrastruktu støttes distribuerte, domenespesifikke datakonsumenter. Grunnlaget for dette gjøres ved å definere datastandarder som legger til rette for samarbeid på tvers av domenene. Dette kan være standarder for formatering, governance, oppdagbarhet, metadata-felter, med mer. Det legges til rette for å benytte dataene på tvers av domener, både når det gjelder rådata og vaskede data.

Skalerbarhet rediger

Zhamak har argumentert for at dataarkitekturen kan skaleres ved å brytes ned i mindre, domeneorienterte komponenter.[6]

Sammenlignet med data fabric rediger

Begrepene data mesh (datamaske) og data fabric brukes av og til om hverandre, men data fabric er en mer arkitektonisk tilnærming til datatilgang, mens en datamaske forsøker å koble dataprosesser med brukere.[7][8]

Se også rediger

  • Dataforvaltning
  • Datahvelvmodellering, metode for datamodellering med lagring av data fra ulike driftssystemer og sporing av dataopprinnelse, tilrettelagt for revisjon, lastehastigheter og resiliens
  • Datavarehus, veletablert type databasesystem for å organisere data på en tematisk rettet måte
  • Mikrotjenester (Microservices), variant av tjenesteorientert arkitektur hvor en tjeneste sys sammen av løst koblede tjenester
  • ETL og ELT

Referanser rediger

  1. ^ «Data Mesh in Practice: How Europe's Leading Online Platform for Fashion Goes Beyond the Data Lake». Databricks (engelsk). Besøkt 28. januar 2022. 
  2. ^ «How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh». martinfowler.com. Besøkt 28. januar 2022. 
  3. ^ «From data mess to a data mesh». Deloitte Netherlands (nederlandsk). Besøkt 28. januar 2022. 
  4. ^ Moses, Barr (19. august 2021). «What is a Data Mesh — and How Not to Mesh it Up». Medium (engelsk). Besøkt 28. januar 2022. 
  5. ^ «Data Mesh defined | James Serra's Blog» (engelsk). 16. februar 2021. Besøkt 28. januar 2022. 
  6. ^ «How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh». martinfowler.com. Besøkt 28. januar 2022. 
  7. ^ ParamitaGhosh (3. november 2021). «Data Fabric vs. Data Mesh». DATAVERSITY (engelsk). Arkivert fra originalen 28. januar 2022. Besøkt 28. januar 2022. 
  8. ^ States, Houston TX United (25. oktober 2021). «Data Mesh Vs. Data Fabric: Understanding the Differences». Datanami. Besøkt 28. januar 2022.