Talesyntese
Talesyntese, syntetisk tale eller kunstig tale er et tekst til tale system. Tekst som vises på en dataskjerm kan ved hjelp av et skjermleserprogram og en enhet for syntetisk tale bli opplest med en kunstig stemme. Det finnes eldre systemer som gjør dette helt syntetisk mens nyere systemer bruker lyder generert av en naturlig menneskelig stemme. Teknologien kan tas i bruk for mennesker med lesevansker som dysleksi eller for synshemmede.
Ulike metoder for talesyntese
redigerTalesynteseprogram har lenge brukt den såkalte difonmodellen, i de siste årene[når?] har man også brukt Hidden Markov Models, eller HMM. Tidligere anvendte man en fullstendig syntetisk tale, der fonemene (lydenhetene) ble produsert ved å kombinere formantane for hver lyd. Problemet med den syntetiske innfallsvinkelen er at resultatet blir syntetisk, en stemme med «robotklang». De fonetiske egenskapene til menneskelig tale er langt mer komplisert, og består ikke bare av de kjente fonemene. I difonbaserte systemer tas med overgangene mellom de enkelte fonemene. Disse stemmene høres mye mer naturlig ut enn kun fonembaserte systemer.
Det motsette av talesyntese er talegjenkjenning, et dataprogram som er i stand til å overføre tale til tekst.
Applikasjoner
redigerPer dags dato finnes det mange ulike norske talesynteser, både kvinne- og mannsstemmer. I begynnelsen av 2012 kommer den første barnestemmen på markedet [1].
Norske syntetiske stemmer
rediger- Acapela Bente[2]
- Acapela Elias[3]
- Acapela Emilie[4]
- Acapela Kari[5]
- Acapela Olav[6]
- Acapela Thomas[6]
- IVONA Liv
- LingSpeak Arne[7]
- Lingit Isak (SAPI-kompatibel, bokmål/nynorsk)[8]
- Lingit Inger (SAPI-kompatibel, bokmål/nynorsk)[9]
- NLB Brage[10]
- Nuance Stine[11]
- Loquendo Henrik[12]
- Loquendo Vilde[13]
- eSpeak (under arbeid)[når?][14]
MediaLT har en test av norske talesynteser med lydeksempler.[15]
MS Windows
redigerI MS Windows brukes vanligvis SAPI-baserte stemmer. SAPI (Speech Application Programming Interface) er et standardisert talegrensesnitt mellom for eksempel syntetisk taleenhet og en applikasjon som støtter taleteknologi. På denne måten kan man bruke en syntetisk stemme til ulike Windows applikasjoner framfor å kjøpe et system til hver applikasjon.
Mac OS
redigerMac OS har også innebygd talesyntese som standard. Applikasjonene kan benytte seg av denne tilgjenglighetsfunksjonen.
iOS
redigeriOS støtter også talesyntese ved hjelp av den innebygde skjermleseren VoiceOver.
Taleteknologi
redigerModerne systemer bruker to tilnærminger: brukeravhengige (speaker-dependent), som krever opplæring, og brukeruavhengige (speaker-independent), som fungerer uten tilpasning.[16][17] Grunnlaget for slike systemer utgjøres av skjulte Markov-modeller (HMM) og nevrale nettverksmetoder, inkludert dype tilbakevendende nevrale nettverk (RNN) og Transformer-arkitekturer, som har økt nøyaktigheten av gjenkjenning.[18][19]
Moderne algoritmer tar hensyn til kontekst, reduserer støy og tilpasser seg aksenter, noe som gjør dem mer allsidige. Utviklingen av transferlæring har forbedret ytelsen til systemer for språk med begrensede data.
Forskning er fokusert på å øke nøyaktigheten under utfordrende forhold, jobbe med dialekter og lage naturlige stemmegrensesnitt.[20] Det utvikles også teknologier som tar hensyn til følelsesmessige nyanser i tale, noe som utvider deres funksjonalitet.[21]
Intelligente taleteknologier forbedrer interaksjonen med brukere ved å øke nøyaktigheten av personaliserte tjenester og tilpasningsevnen til talebehandling.[22]
Bruk av teknologi
redigerTaleregistrering brukes aktivt:[23][24][25]
- Stemmeassistenter (Siri, Alexa, Google Assistant) utfører brukernes kommandoer.
- Telekommunikasjon og VoIP bruker talekommandoer for samtalestyring.
- Medisin anvender teknologi for automatisk opprettelse av medisinske rapporter.
- Luftfart bruker talekommandoer i systemstyring.
Ifølge forskning har integrasjonen av nevrale nettverk forbedret nøyaktigheten av gjenkjenning og tilpasningsevne. Flerspråklige teknologier lar brukere arbeide med systemer på forskjellige språk.[26]
Referanser
rediger- ^ Prosjekt «Barnestemme», MediaLT [1] Arkivert 19. desember 2012 hos Wayback Machine.
- ^ Acapela Bente «Arkivert kopi». Arkivert fra originalen 27. september 2013. Besøkt 26. september 2013.
- ^ Acapela Elias «Arkivert kopi». Arkivert fra originalen 27. september 2013. Besøkt 26. september 2013.
- ^ Acapela Emilie «Arkivert kopi». Arkivert fra originalen 27. september 2013. Besøkt 26. september 2013.
- ^ Acapela Kari «Arkivert kopi». Arkivert fra originalen 27. september 2013. Besøkt 26. september 2013.
- ^ a b Acapela Olav «Arkivert kopi». Arkivert fra originalen 27. september 2013. Besøkt 26. september 2013.
- ^ LingSpeak Arne «LingSpeak Arne (Arkivert kopi)». Lingit. Arkivert fra originalen 27. september 2013. Besøkt 26. september 2013. «Lingspeak Arne er en såkalt difonsyntese som Lingit har videreutviklet fra Telenors talesyntese "Telenor Talsmann". Lingit ferdigstilte Lingspeak Arne i 2008. | Lingit leverer i dag stemmer av høyere kvalitet basert på såkalt HTS-teknologi. Les mer om Lingits nye stemmer Isak og Inger her.»
- ^ Lingit Isak «Arkivert kopi». Arkivert fra originalen 27. september 2013. Besøkt 26. september 2013.
- ^ Lingit Inger «Arkivert kopi». Arkivert fra originalen 27. september 2013. Besøkt 26. september 2013.
- ^ NLB Brage «Arkivert kopi». Arkivert fra originalen 28. september 2013. Besøkt 26. september 2013.
- ^ Nuance Stine «Arkivert kopi». Arkivert fra originalen 20. september 2013. Besøkt 26. september 2013.
- ^ Loquendo Henrik «Arkivert kopi». Arkivert fra originalen 20. september 2013. Besøkt 26. september 2013.
- ^ Loquendo Vilde «Arkivert kopi». Arkivert fra originalen 20. september 2013. Besøkt 26. september 2013.
- ^ «eSpeak». Teksten «http://espeak.sourceforge.net/languages.html» ignoreres (hjelp);
- ^ MediaLT: test av norske talesynteser med lydeksempler [2] Arkivert 27. september 2013 hos Wayback Machine.
- ^ «A Hybrid Approach to Speech Recognition for Voice Picking». www.lucasware.com. Besøkt 20. mars 2025.
- ^ «Speaker Dependent / Speaker Independent». www.imagesco.com. Besøkt 20. mars 2025.
- ^ «How To Implement Speech Recognition». spotintelligence.com. Besøkt 20. mars 2025.
- ^ «History of Speech-to-Text AI models». holypython.com. Besøkt 20. mars 2025.
- ^ «Speech Recognition: Everything You Need to Know in 2025». research.aimultiple.com. Besøkt 20. mars 2025.
- ^ «A Complete Guide to Speech Recognition Technology». summalinguae.com. Besøkt 20. mars 2025.
- ^ «Voice Assistant Advancements». www.voicedrop.ai. Besøkt 20. mars 2025.
- ^ «The Ultimate Guide to Speech Recognition». www.dolbeyspeech.com. Besøkt 20. mars 2025.
- ^ «Innovative Uses of Speech Recognition Today». summalinguae.com. Besøkt 20. mars 2025.
- ^ «Speech Recognition: Definition, Importance and Uses». transkriptor.com. Besøkt 20. mars 2025.
- ^ «Neural networks and speech recognition». www.gosmar.eu. Besøkt 20. mars 2025.