Talegjenkjenning er gjenkjenning av menneskelig tale ved hjelp av en maskin. Denne teknologien gjør det blant annet mulig å styre en maskin og diktere tekst ved hjelp av tale. Gjenkjenningen skjer vanligvis ved hjelp av et dataprogram som igjen styrer andre programmer eller utstyr koblet til datamaskinen. Mennesker med fysiske funksjonsnedsettelser, som ikke kan styre en datamaskin ved hjelp av tastatur og mus, kan ha spesiell utbytte av talegjenkjenning.

Begreper

rediger

Talegjenkjenning er en gren innen taleteknologi som gjør det mulig at mennesket kan snakke direkte til en maskin. Maskinen kan snakke til mennesket ved hjelp av talesyntese, det vil si kunstig tale. For å kunne diktere fri tekst til en datamaskin kreves det et såkalt dikteringssystem (tale til tekst). Talegjenkjenning må ikke forveksles med stemmegjenkjenning som er en biometrisk prosess for å kunne identifisere et menneske ved hjelp av sin stemme.

Ulike systemer

rediger

Talegjenkjenning kan grovt deles inn i to typer:

  • personuavhengig talegjenkjenning
  • personavhengig talegjenkjenning

Typisk for den personuavhengige talegjenkjenningen er at systemet ikke behøver noen adapsjon til personen, det vil si Det kreves ingen opptrening av systemet. Personavhengig talegjenkjenning derimot krever innlesing av brukerens tale gjennom en viss mengde tekst. På denne måten lages en brukerspesifikk profil, og andre kan ikke bruke systemet uten å selv gå gjennom denne trainingen. Ordforrådet derimot kan bli betydelig større på denne typen talegjenkjenning. Dragon Naturally Speaking versjon 11 har et ordforråd på flere 100.000 ord, og at opptrening i denne versjonen ikke er absolutt nødvendig lenger, men en stor fordel.

Historisk utvikling

rediger

Forskningen innen talegjenkjenningssystemer begynte på 1960-tallet, men med lite suksess. Private aktører klarte å lage systemer som kunne gjenkjenne noen titalls enkeltord under testbetingelser. Det manglet både kunnskap i dette nye forskningsfeltet, men også de tekniske mulighetene var begrenset.

Først på midten av 1980-tallet ble dette utviklet videre. På denne tiden oppdaget man at det var mulig å skille mellom homofoner gjennom konteksttesting. Dette gjøres gjennom statistisk undersøkelse av hyppigheten i ordkombinasjoner. På denne måten kan man avgjøre hvilket ord som er mest sannsynlig når man har likelydende ord eller ord som likner hverandre lydmessig. Denne såkalte trigramstatistikken ble i ettertiden en viktig del av talegjenkjenningssystemer.

I 1984 presenterte IBM det første talegjenkjenningssystem som kunne gjenkjenne cirka 5.000 engelske enkeltord. Systemet brukte flere minutter på denne prosessen på en stordatamaskin. Kort tid etter kom Dragon Systems med et system som fungerte på en bærbar PC.

I slutten av 1993 presenterte IBM det første systemet til forbrukermarkedet: IBM Personal Dictation System fungerte på en vanlig PC til en pris på under 1000 Dollar. Systemet ble presentert på CeBIT 1994, og ble tatt imot med stor interesse av besøkende og fagpressen.

I 1994 var Kurzweil først ute med et system som kunne bearbeide flytende diktering. (I tidligere systemer måtte man adskille ord fra hverandre.)

I 1997 kom både IBM ViaVoice (etterfølgeren av VoiceType), og versjon 1.0 til programvaren Dragon NaturallySpeaking for Windows-plattformen, som også kunne bearbeide flytende diktering. Den største begrensningen i ytelsen på denne tiden var begrensningene i PC-en som prosessorhastighet og størrelsen av minnen.

I 2004 ble deler av IBM talegjenkjenneren frigitt som «åpen kildekode». De som kjenner bransjen har antatt at dette ble gjort av taktiske grunner ovenfor Microsoft, som ønsket å legge talegjenkjenning inn i operativsystemet Windows Vista og nyere versjoner.

Mens utviklingen til ViaVoice ble stoppet, ble Dragon Naturally Speaking (DNS) utviklet av det amerikanske firma Nuance Communications, til den mest utbredte, personuavhengige tredjeparts talegjenkjenningsprogramvaren for Windows. Dragon Naturally Speaking fra Nuance er i dag den ledende programvaren for talegjenkjenning, og finnes som hyllevare. Engelsktalende har kunnet nyttiggjøre seg denne programvaren i over 15 år, og til nå er DNS tilgjengelig på ni språk.

I 2008 kjøpte Nuance opp Philips Speech Recognition Systems, Wien, samt Software Development Kit (SDK) SpeechMagic, som er mest utbredt i helsevesenet. I Norge er det Max Manus as Arkivert 23. mai 2016 hos Wayback Machine. som benytter seg av denne teknologien, som er i bruk innen helsevesenet.

iMac-datamaskiner fra Apple finnes det tredjepartsprogramvaren fra MacSpeech med navnet «iListen» siden 2006. Denne programvaren bygger også på Philips-komponenter. I 2008 ble kjernekomponenten byttet ut mot Dragon Naturally Speaking, og etter at Nuance kjøpte opp MacSpeech i 2010, ble navnet forandret til Dragon Dictate.[1]

Ytelse

rediger

Ytelsen innen talegjenkjenning måles i forhold til nøyaktigheten og hastigheten i gjenkjennelsen. Nøyaktigheten måles ofte i «ordfeilraten» (WER eng. word error rate), og hastigheten måles tiden som går mellom innlesing av en gitt tekstmengde til den er ferdigskrevet i datamaskinen, eller til en kommando er utført.[2]

Maskinell gjenkjenning av den menneskelige talen er en veldig kompleks prosess. Det muntlige talematerialet varierer av følgende variabler: accent, uttale av ord, artikulasjon, tonefall, tonehøyde, volum og talehastighet, og på den mer tekniske siden: kvalitet av mikrofon, støy og ekko samt andre forstyrrelser. Dette gjelder den akustiske gjenkjenningen, det vil si gjenkjenningen av fonetikken i talen, mens på gjenkjenning av ord er det følgende faktorer:

  • størrelsen av vokabularet (ordforråd) og flertydighet av ord
  • personavhengighet eller ikke
  • talestrømmens kontinuitet, diskontinuitet og isolerte ord uten sammenheng
  • lest tekst contra spontan tale


Norske systemer - Status per november 2019

rediger
  • Microsoft Word og Outlook i Office 365 har fått norsk diktering. (okt. 2019)[3]
  • I juni 2017 lanserer Max Manus AS talegjenkjenning på norsk for Windows under produktnavnet «Tuva»[4]. Målet med dette produktet er blant annet å kunne hjelpe mennesker uten armfunksjoner og blinde å kunne betjene datamaskinen. Dette er et viktig punkt i kravspesifikasjonen.
  • Norsk diktering i Google dokumenter, kan brukes kun sammen med Google Chrome nettleser.[5]
  • Apple iOS 9 har fått Siri på norsk.[6][7] Norsk diktering er integrert i tastaturet (symbol til venstre for mellomromstasten) uten å aktivere Siri. Aktiveringen skjer under innstillinger - generelt - tastatur - diktering. Dikteringen fungerer uavhengig av hvilken app som er aktiv.[8]
  • I statsbudsjettet 2015 er det bevilget 13 millioner kroner til utvikling av talegjenkjenningsprogram på norsk.[9][10] Anbudsrunden er avsluttet per 15.8.15, og midlene er tildelt til Max Manus as.[11][12][13]
  • Mac OSX fra versjon 10.10 Yosemite har fått norsk talegjenkjenning, diktering samt enkelte kommandoer. Den er personuavhengig. Dette system baserer seg på Nuance teknologi «speech-to-text technology».[14][15]
  • Fra iOS 8 er det mulig å diktere SMS direkte med norsk talegjenkjenning.[16] I eldre iPhone og iPad som bruker iOS 7 eller tidligere versjoner kan man bruke en applikasjon «Dragon Dictation»[17]som kan brukes på norsk (Bokmål) til å skrive korte tekster. Tekstene kan sendes til en SMS eller e-postmottaker, eller den kan kopieres og brukes i andre applikasjoner. Under alfa-testene til programmet i juni 2011 ble det målt en 80 % treffsikkerhet ved lesing av avistekst. Applikasjonen «Dragon search» kan også brukes på norsk (Bokmål) til å lese inn tekst til blant annet Google, Twitter, YouTube og Wikipedia.
  • Smarte enheter med Android operativsystemet (eks. Samsung) har nå også innebygd talegjenkjenning i tastaturet («taleinntasting»)[18]. Alternativt kan man også bruke Swype Keyboard[19]).
  • Et forprosjekt med midler fra NAV Kompetansesenter for tilrettelegging og deltakelse har vist at det er teknisk mulig å utvikle talegjenkjenning på norsk ved å benytte datamaterialet som er tilgjengelig i den norske Språkbanken. Forprosjektet viser at mange personer med redusert funksjonsevne vil kunne få styrket sin mulighet for yrkesdeltakelse, og redusere faren for å falle ut av arbeidslivet, ved å bruke norsk talegjenkjenning. I tillegg til den betydningen dette har for den enkelte, vil de samfunnsøkonomiske besparelsene være betydelige.[20]
  • Språkbanken, en avdeling under nasjonalbiblioteket, har lagt ut leksikalske og taledatabaser. Dette er ressurser fra det tidligere selskapet «Nordisk Språkteknologi».[21] – Språkressursene ligger under «Tilgjengelege ressursar».
  • VOMOTE[22]et produkt for kommandostyring og staving av ord, samt musestyring (men uten diktering) er kommet den 15. oktober 2010. Dette Windows-baserte systemet er i første omgang beregnet på mennesker som av ulike årsaker ikke kan betjene en datamaskin med mus og tastatur. Mulige årsaker kan være: muskel-/skjelettsykdommer, lammelser i hendene, musearm eller andre plager i armer og nakke). Systemet kan styres helt håndsfri. Det er mulig å få auditiv tilbakemelding ved hjelp av innebygd syntetisk tale, slik at for eksempel mennesker med synshemninger kan benytte systemet uten å forholde seg til skjermen.

Talegjenkjenning for personer med funksjonsnedsettelser

rediger

Personer som har problemer med å bruke vanlig tastatur og mus kan bruke talegjenkjenning, for å kunne styre datamaskinen og diktere tekst ved hjelp av tale. En åpenbar målgruppe som kan ha behov for talegjenkjenning er personer med ulike former for muskelsykdommer, senebetennelse og andre lidelser i hender og armer. Andre grupper er dyslektikere med alvorlige skrivevansker og synshemmede.

En annen anvendelse til talegjenkjenning er teksting av direktesendinger på TV, hvor en person sitter i «bakrommet» med talegjenkjenning, og gjentar alt som blir sagt.[23] Dette gjøres blant annet av BBC i England under begrepet «respeaking»[24][25].

På grunn av antidiskrimineringsloven i USA, er Dragon Naturally Speaking utviklet etter kriteriene for universell utforming.

Referanser

rediger
  1. ^ «Nuance Acquires MacSpeech». Nuance Communications, Inc. Arkivert fra originalen 11. april 2015. 
  2. ^ Alexander I. Rudnicky · Carnegie Mellon University (10.11.2014). «What are the performance measures in Speech recognition?». 
  3. ^ Stein Jarle Olsen (26. oktober 2019). «Microsoft lanserer tale-til-tekst på norsk». tek.no. Besøkt 29. november 2019. 
  4. ^ «I juni lanserer Max Manus AS talegjenkjenning på norsk». Max Manus as. Arkivert fra originalen 8. april 2017. Besøkt 07.04.2017. 
  5. ^ «Talegjenkjenning i Google Docs». 1. mai 2016. Arkivert fra originalen 11. februar 2017. 
  6. ^ Kirsti Østvang (10. juni 2015). «Apple klar med norsk utgave av Siri». Din side. Arkivert fra originalen 14. september 2015. Besøkt 11.9.2015. 
  7. ^ «Bruke Siri på iPhone, iPad eller iPod touch - Apple-kundestøtte». support.apple.com. Besøkt 30. september 2015. 
  8. ^ Kirsti Østvang. «Nå skal iPhone forstå norsk». Din Side. 
  9. ^ jacques.svarverud@maxmanus.com. «Status fra utviklingsarbeidet for talegjenkjenning på norsk». Arkivert fra originalen 3. mars 2017. Besøkt 01.03.2017. 
  10. ^ «Statsbudsjett 2015 - 2.1 Samlet budsjettforslag fordelt på programområder og programkategorier». ARBEIDS- OG SOSIALDEPARTEMENTET (ASD). januar 2015. Arkivert fra originalen 2. april 2015. Besøkt 9. mars 2015. 
  11. ^ Jannicke Nilsen (22.10.2015). «TALEGJENKJENNING PÅ NORSK: NAV og brukere ønsket etablert amerikansk taleteknologi. Nå skal et norsk selskap bygge opp nytt program.». Teknisk Ukeblad. Arkivert fra originalen 23. oktober 2015. Besøkt 23. oktober 2015. 
  12. ^ «Max Manus vinner anbud for generell talegjenkjenning på norsk». Max.manus.no. 26.10.2015. Arkivert fra originalen 12. februar 2016. Besøkt 26.10.2015. 
  13. ^ Jannicke Nilsen (28.10.2015). «TALEGJENKJENNING PÅ NORSK – Dette er den norske syke. Vi skal helst finne opp hjulet på nytt». Teknisk Ukeblad. Arkivert fra originalen 29. oktober 2015. Besøkt 28.10.2015. 
  14. ^ Jordan Kahn (3.6.2014). «Here are all 24 new dictation languages arriving in iOS 8 & OS X Yosemite». 
  15. ^ Frank Lunde (oktober 2014). «Aktivere diktering i OS.X 10.10 Yosemite». NAV Kompetansesenter for tilrettelegging og deltakelse. Arkivert fra originalen 2. april 2015. 
  16. ^ Kirsti Østvang (12. september 2014). «Nå skal iPhone forstå norsk». Dinside.no. Arkivert fra originalen 10. juni 2015. 
  17. ^ iPhone/iPad applikasjon «Dragon dictate» [1]
  18. ^ Mikael Lunde (02.04.2017). «Sløyf tastaturet: Slik dikterer du meldinger». Telenor. Besøkt 10.05.2017. 
  19. ^ DinSide (26. juni 2012). «Android app Swype med norsk talegjenkjenning». Arkivert fra originalen 4. november 2014. Besøkt 4. november 2014. 
  20. ^ «Forprosjektet norsk talegjenkjenning». NAV Kompetansesenter for tilrettelegging og deltakelse. 30.3.2012. Arkivert fra originalen 2. april 2015. Besøkt 9. mars 2015. 
  21. ^ Språkbanken [2] [3]
  22. ^ VOMOTE [4] Arkivert 16. desember 2012 hos Wayback Machine.
  23. ^ Norges Døveforbund (13.6.2013). «TV-teksting basert på talegjenkjenning». Arkivert fra originalen 6. september 2015. 
  24. ^ Ellena Stojanovic (3.2.2011). «How subtitles are made». 
  25. ^ BBC (21.7.2006). «Reading the news». 

Litteratur

rediger
  • Lawrence R. Rabiner und Ronald W. Schafer: Digital Processing of Speech Signals, 1978, ISBN 0-13-213603-1
  • Alexander Waibel: Readings in Speech Recognition, 1990, ISBN 1-55860-124-4
  • Lawrence R. Rabiner und Biing-Hwang Juang Juang: Fundamentals of Speech Recognition, 1993, ISBN 0-13-015157-2
  • E.-G. Schukat-Talamazzini: Automatische Spracherkennung, 1995+2001, ISBN 3-528-15492-6
  • Speech Recognition: Online lærebok / Skript: 'An Introduction to Speech Recognition' von B. Plannerer, C++ Tutorial and MATLAB examples (englisch)

Eksterne lenker

rediger