Wikipedia:Henstilling om å sette på metadata

Skribenter på Wikipedia bruker veldig mye referanser (kildehenvisniner) til norske nettsteder, og vi ønsker at enda mer referanser. Tidligere fylte vi ut kildemaler manuelt, men vi blir stadig mer avhengig av maskinell høsting av referanser.

Vi henstiller derfor om at nettsteder setter på metadata og ikke minst at metadata er maskinlesbare. Hvis metadata er maskinlesbare så blir innhøsting av metadata mye enklere for oss, ikke minst våre faste skribenter, og det blir også mye enklere for alle andre som ønsker å lage referanser til deres nettsteder.

Det er noen grunnleggende standarder som har vokst frem de siste årene. Blant annet er det bransjestandarder og bedriftsstandarder for metadata fra Dublin Core, Schema.org (Bing, Google, Yahoo!, m.fl.), OpenGraph (Facebook), og Twitter. Noen slike felt for metadata er også definert av W3C. Det viktige er ikke hvilken en velger, men at metadata er maskinlesbare på et eller annet format, og selvfølgelig at aktuelle og tilgjengelige metadata kan publiseres med standarden.

Når vi høster metadata maskinelt så bruker vi et verktøy som vi kaller citoid. Dette bruker de samme mekanismene som Zotero, slik at kan noe håndteres i det verktøyet så kan vi også importere det her. Det er reklamen. Vi er ikke helt der ennå, for citoid er fortsatt under utvikling. Når citoid finner ut av metadata på en side så kan våre skribenter lime inn URL-en fra en artikkel i verktøyet hos oss og ut av det kommer en ferdig formatert referanse.

Andre høster og bruker tilsvarende maskinelt lesbare metadata. Eksterne nettsteder kan dermed bruke vår citoid-tjeneste for å se om de publiserer tilstrekkelig metadata. Legg til lenke til en ekstern side som et URL-kodet siste element i lenka https://no.wikipedia.org/api/rest_v1/data/citation/mediawiki/ og legg deretter til ?action=query&format=json. Vi har allerede gått gjennom en del sider på forskjellige nettsteder for å se om vi klarer å finne tilstrekkelig med metadata på sidene. For eksempel er lista av metadata slik når vi sjekker «Semantic MediaWiki» fra Springer,

  • Krötzsch, Markus; Vrandečić, Denny; Völkel, Max (5. november 2006). Cruz, Isabel; Decker, Stefan; Allemang, Dean; Preist, Chris; Schwabe, Daniel; Mika, Peter; Uschold, Mike; Aroyo, Lora M., red. «Semantic MediaWiki». Lecture Notes in Computer Science (engelsk). Springer Berlin Heidelberg. s. 935–942. doi:10.1007/11926078_68. Besøkt 20. april 2016. 

mens lista av metadata blir slik for «Mikkjel, far min» fra Bokhylla. (Nye bokhylla feiler ganske ettertrykkelig, referansen nedenfor er fra gamle utgaven.)

Den siste er ikke helt god, men det finnes verre. Nå skal det sies at i Nasjonalbibliotekets «Bokhylla» er det en manuell løsning som vi kan bruke, og den gir et noe bedre resultat. Forsøker vi å hente data maskinelt fra NRKbeta så går det nesten bra, men vi skulle gjerne hatt med navnet på forfatteren.

Det vi ønsker oss for å få gode referanser er tittel, forfatter, utgiver, og publiseringsdato. Hvis det er en bok så ønsker vi ISBN-kode der den finnes. For seriepublikasjoner ønsker vi ISSN-kode. Kan vi få på plass riktig side, og lenke på den så er det flott. Hvis det er et samleverk så bør det angis hvem som er redaktør. I tillegg er det mange felt som er flott å få med, slik som beskrivelse og abstrakt, men det er de forannevnte som er de viktigste.

Som oftest er det enklest å bruke de ordinære taggene for metadata i header på artiklene, og så bruke Dublin Core, OpenGraph og Twitter sine feltnavn, eller andre andre etablerte metadata feltnavn. WHATWG vedliker en oversikt av slike på MetaExtensions,[1] og det er mer om hvordan disse er satt opp på html5 document-metadata.[2]

Den løsningen som kanskje er best for oss er om metadata tagges opp med DCterms i metadatafeltene. Formen for en nyhetsartikkel vil typisk bli (Litt dårlig eksempel, vi har problemer med felt av typen DC.date.issued!)

<link rel="schema.dcterms" href="http://purl.org/dc/terms/">
<meta name="dcterms.type" content="Text">
<meta name="dcterms.language" content="nb">
<meta name="dcterms.issued" content="YYYY-MM-DD">
<meta name="dcterms.created" content="YYYY-MM-DD">
<meta name="dcterms.title" content="On funting a tiger">
<meta name="dcterms.description" content="How to apply traditional hunting techniques while avoiding getting eaten.">
<meta name="dcterms.creator" content="Ole Brumm">
<meta name="dcterms.contributor" content="Nasse Nøff">
<meta name="dcterms.publisher" content="Publisher">
<link rel="canonical" href="http://example.com/article"/>

Dette forutsetter at det brukes DCterms ihht MetaExtensions, men denne katalogen har nok blitt nokså vanlig. Både hvis du bruker denne løsningen og andre, så sjekk at citoid faktisk klarer å plukke opp metadataene.

Hvis metadataene ikke er tekststrenger, dvs de er ikke literal data men lenker, så kan det isteden brukes rel keywords.[3] Den viktigste forskjellen er at DCterms skrives med store bokstaver.

<link rel="schema.dcterms" href="http://purl.org/dc/terms/">
<meta name="dcterms.publisher" content="Publisher">
<link rel="DCTERMS.publisher" href="http://example.com/publisher">
<link rel="canonical" href="http://example.com/article"/>

ReferanserRediger

  1. ^ «MetaExtensions». Web Hypertext Application Technology Working Group (WHATWG). 
  2. ^ «HTML5 – A vocabulary and associated APIs for HTML and XHTML». World Wide Web Consortium.  |seksjon= ignorert (hjelp)
  3. ^ «existing rel values». the microformats community.  Parameteren |seksjonsurl= støttes ikke av malen. (hjelp); |seksjon= ignorert (hjelp)