Möjligheter med talteknologi

kvinnan talar till en smart apparat

Att använda talteknologi blir allt vanligare både i vardagen och i arbetslivet. Hemma kan man få telefonen att ringa upp en viss person med hjälp av rösten eller styra belysningen med talkommandon och allt fler hushållsapparater är uppkopplade till nätet. Möjligheterna med talteknologi bara ökar – man talar redan om smarta hem. Taligenkänning i form av exempelvis röststyrning ökar också programmens och till och med vardagssysslornas tillgänglighet i och med att utrustning kan styras med tal. 

Med taligenkänning kan datorn alltså känna igen talet och omvandla det till text. Då har man lärt datorn att känna igen språket och dess regler med hjälp av omfattande ljud- och textmaterial. Finska och andra språk med många böjningar anses vara utmanande ur den synvinkeln, till skillnad från exempelvis engelska, som har ord med få böjningar, vilket gör det lättare att träna systemet att känna igen dem korrekt. Lingsofts egenutvecklade analys av språkets struktur och den taligenkänningslösning som den bygger på visar dock att komplicerade språk och teknologi är kompatibla. 

För taligenkänning lär man datorn språket med hjälp av ett visst material: exempelvis för skräddarsydd taligenkänning för hälso- och sjukvården används varierande hälso- och sjukvårdsmaterial, så att datorn lär sig vilka orddelar som ofta förekommer i olika sammanhang. En sådan taligenkänning utvecklad för särskilda behov fungerar inte nödvändigtvis perfekt inom andra specialområden, men inom det egna området får man mycket precisa resultat.

Lingsofts taligenkänning bygger på vår egen språkliga strukturanalys, som kan användas för att lära datorn språkets böjnings- och ordbildningsregler. Det gör att man inte behöver lära ut varje ord separat, utan datorn lär sig att uppfatta delar av ord och ordgränserna i exempelvis sammansatta ord, samt att känna igen orden även i böjd form. 

Taligenkänning stöder ditt arbete

Tekniken för taligenkänning möjliggör till exempel textning med mycket snäv tidtabell. Informationsförmedlingen måste ofta vara mycket snabb och samtidigt tillgänglig, så att textning av videomaterial och textversioner av ljudinnehåll kan erbjudas utan dröjsmål. Exempelvis en taligenkänningsmodell för väderprognoser som gjordes för Sveriges television SVT gav utmärkta resultat och den text som modellen producerade hade färre fel än den som producerades av en människa. 

Det finns ett stort behov av att utveckla taligenkänningsteknologier, eftersom det är mycket utmanande att exempelvis texta direktsändningar i teve och på webben i realtid. Lösningar för livetextning och liknande utmaningar är ett viktigt steg mot en mer tillgänglig värld. På Lingsoft bedrivs ett energiskt utvecklingsarbete och man kommer allt närmare lösningar för taligenkänning i realtid. 

Taligenkänning fungerar som ett effektivt stöd för minnet, påskyndar textproduktionen och frigör arbetstid till annat. Man snabbar exempelvis på skrivandet av mötesprotokoll enormt genom att taligenkänningsprogrammet skapar en råtext som bara behöver finslipas. Samtidigt kan alla deltagare delta fullt ut i mötet. Taligenkänning används också vid diktering inom hälso- och sjukvården

Med hjälp av taligenkänning får man också ett omfattande material i form av data i textformat, som är lättare att hantera och organisera. Det gör informationen betydligt lättare att hitta. Genom sökbarhetslösningar kan informationssäkerheten förbättras, då det går snabbare att hitta känsliga och skyddade uppgifter, exempelvis personuppgifter, och de kan anonymiseras eller raderas i enlighet med dataskyddskraven. Den information som behövs för användningen kan kopplas till metadata för att underlätta arbetet.