Wikipedia:Skole og universitetsprosjekt/Ordbøker og maskinoversettelse

Ordbøker og maskinoversettelse er viktig for å høyne kvaliteten og skape mer samarbeid mellom prosjektene. Skal vi få til maskinoversettelser så forutsetter det ordbøker. Noen av disse er nokså spesielle, såkalte transferleksikon, men mange er nokså ordinære. Problemet er at de ikke finnes åpent tilgjengelig - de finnes kun som opphavsrettslig beskyttede verk. Innenfor Wikimedia-paraplyen så finnes det et eget ordboksprosjekt, men vi trenger løsninger for å få prosjektet til å vokse betydelig raskere enn i dag.

Kan vi lage verktøy som henter ut datagrunnlag fra Wikipedia for å lage ordboksoppføringer på Wiktionary? Hva er forutsetningene for å få til noe slikt, og har vi tilgang til nødvendig datagrunnlag. Et prosjekt som bruker en noe mer avansert tilnærming til en ordbok enn Wiktionary er OmegaWiki, tidligere WiktionaryZ.

Vi vet at det er mulig å få gode resultater med både statistisk oversettelse og regelbasert oversettelse. Det er gjort noe arbeid på regelbasert maskinoversettelse basert på Apertium, og det har også blitt gjennomført et prosjekt som «Google summer of code». Det er et ønske om å starte et mer omfattende prosjekt på maskinoversettelser ved hjelp av Apertium. Med statistisk oversettelse er det antakelig mulig å få til læring utfra retting i Wikipedia, mens det med regelbasert oversettelse gjør det enklere å legge inn a priori kunnskap i systemet. I det siste tilfellet får vi svært mye bedre oversettelser på et tidlig tidspunkt og kan bruke retting for å beregne godheten for reglene, noe som igjen kan føres tilbake til bedre regler. Antakelig er en ideell løsning å starte regelbasert og så fange opp unntak gjennom statistisk oversettelse.

Grammatikkspill

Grammatikkspill kan brukes for å lage ordbøker. Mye av innholdet i Wiktionary er såvidt velstrukturert at det er mulig å lage spill som kan brukes for å angi nøkkelopplysninger om ord. Slike spill kan være en boks som spør etter klassifisering av termer på nettsteder for Wikimedia. Hvis en person har klassifisert en serie termer så får han vite at «Av 30 termer var 20 kjente og du svarte rett på 15 av dem, gratulerer, du får B!» Tilsvarende metoder er kjent fra reCAPTCHA. Er slike metoder tilstrekkelig spennende til at de vil bli brukt, og kan vi klare å angi tilstrekkelig annotering for termer til at vi faktisk klarer å skape en ordbok på dette viset. Kanskje finnes det andre måter å formulere dette som gjør det mer attraktivt å løse slike problemer, eventuelt applikasjoner hvor det finnes sammenlignbare problemer som brukeren uansett må løse. Vi tror at slike grammatikkspill kan være en spennende mulighet for å engasjere skoleelever.

Løsningen vil baseres på en server som leverer aktuelle ord. Systemet har en pool av aktuelle ord og starter med et mindre subsett av ord som er kjent. Brukere får noen ord fra det kjente settet og noen fra det ukjente settet, men uten å vite hvem som kommer fra det ukjente settet. Ord i det ukjente settet kan systemet ikke si noe om, men ord fra det kjente settet vil det vite noe om og kan derfor gi en tilbakemelding på hvorvidt studenten løste disse. Ved flere kjøringer så vil systemet få kunnskap om felles identifisering av ukjente ord, og etter hvert vil settet av kjente ord vokse. Til slutt vil klassifisering av alle ord være kjent og systemet vil gå over til å forsterke klassifiseringen av de svakest klassifiserte ordene.

Maskinoversettelser

Maskinoversettelser forutsetter at en god del regelsett er på plass for at de skal fungere, og disse forutsetter en maskinlesbar ordbok. Kan dette hentes fra Wiktionary ved å bruke iw-lenker, eventuelt krysslenking til seksjoner inne i artiklene. Strukturen som er valgt i disse prosjektene er imidlertid vanskelig å vedlikeholde automatisk. Tenk nytt, hvordan kan det her gjøres på en mer elegant måte som gjør det enklere å bidra - samtidig som vi beholder wikigrensesnittet? Noe av tilpassingen må kanskje gjøres i egne grensesnitt, spesielt transferleksikon, men kan vi håndtere mesteparten via ordinær wikikode?

Det er mulig å lage maskinoversettelser som fungerer mellom artikler på Wikipedia, også med statistiske metoder slik som i Google Translate. Grunnen er at veldig mye tekst er basert på standardfraser og disse kan legges inn i egne fraselister. Det vi ønsker oss er imidlertid ikke et verktøy som er skreddersydd for å oversette tekst mellom to versjoner av Wikipedia på hvert sitt språk, men et verktøy som oversetter generelle tekster mellom to språk.

Malproblemet

Malproblemet dukker opp nokså raskt når vi snakker om oversettelser. Dette består i at de fleste språkprosjekter på Wikipedia er nokså autonome, men norsk er et makrospråk som består av to målformer og de to prosjektene gjenbruker mye mer stoff enn vanlig. Maler er imidlertid ikke så enkle å gjenbruke, blant annet på grunn av navngitte parametre som må oversettes. Vi tror at en strategi med alias for parametrene og egen utskilt dokumentasjon kan gjøre det mulig å koble malvedlikeholdet på flere prosjekter. Alias gjør det mulig å lage felles grensesnitt mot malverket, dette alene vil gi en stor gevinst og er en forutsetning for å få maskinoversettelser til å bli mest mulig problemfritt. Felles malvedlikehold vil imidlertid gi en større fordel ved at det frigjør arbeidskapasitet, spesielt på nynorskprosjektet.

Det er på gang en ny løsning for å gjenbruke stoff på tvers av prosjekter, men det er nokså mye som må på plass før dette prosjektet er klart.^[1] ^[2]

Referanser

[1] Brightbyte: Versioning Structured Data

[2] Making Wikipedia into a database

[1]

[2]