Talet hörs (och syns) för alla – i realtid

Lingsoft har utvecklat en lösning för SVT för undertextning av direktsända väderleksrapporter genom taligenkänning. Projektet var en del av svenska Post- och telestyrelsens tillgänglighetsprojekt, och resultatet medförde även betydande språkligt kapital till Sveriges nationella språkresursbank.

Svenska Post- och telestyrelsen (PTS) och Sveriges television (SVT) anordnade år 2015 en konkurrensutsättning med målet att utveckla en prototyplösning med taligenkänningsstöd för SVT:s undertextning av direktsända väderleksrapporter. Projektet var en del av ett omfattande statligt projekt med syftet att utveckla Sveriges nationella språkinfrastruktur och främja utvecklingen av talbaserade lösningar och tjänster på den svenska marknaden. Lingsoft valdes till leverantör av prototypen. 

Tillgänglighet i realtid

SVT är ett public service-bolag inom tv och ska enligt sändningstillståndet undertexta 100 procent av de inspelade sändningarna och 65–80 procent av direktsändningarna för tittare som är hörselskadade eller som av andra skäl behöver undertextning. Det innebär årligen cirka 18 000 timmar av svenskspråkiga tv-program som ska textas på svenska. PTS och SVT har ett gemensamt mål: förbättra de offentliga tjänsternas tillgänglighet och användbarhet samt producera information och innehåll som är tillgängligt för alla användargrupper oberoende av ålder, funktionsförmåga, skador eller andra särskilda behov.

Läsbarhet och begriplighet är centralt inom programtextning. Undertextning av direktsändningar är särskilt utmanande, eftersom inte ens en snabb skribent kan skapa en felfri text i takt med talet – för att inte tala om undertexter av hög kvalitet som följer rytmen i talet och bilden. På SVT har live-undertextare tillgång till ett särskilt snabbtangentbord (s.k. Velotype), men det tar månader eller till och med år av övning för att lära sig och behärska det fullständigt. 

Inte enbart teknik, utan en ny process

Man började söka efter en lösning för att förnya undertextningsprocessen genom att förena automatisk taligenkänning och så kallad respeaking. Baserat på fritt tillgängligt tal- och textmaterial samt SVT:s eget material och djupa neurala nätverk utvecklade Lingsoft en taligenkänningslösning, som kunde kopplas till SVT:s eget undertextningssystem. Vi lärde lösningen att särskilt ta i beaktande terminologi i anslutning till väderrapporter samt SVT:s undertextningsregler och praxis. Dessutom fick undertextarna tillgång till röstkommandon som de kunde använda för att ändra exempelvis skiljetecknen, radbyten eller textfärg utan tangentbord.

Ett lyckat IT-projekt med alla mått mätt

Projektet varade i 13 månader och lyckades utmärkt med alla mått mätt: leveransen skedde i förtid och kundens krav överträffades med råge både gällande kvaliteten och hastigheten på taligenkänningen. En förutsättning för framgången var ett nära samarbete med kunden och en genuin förståelse för kundens behov.

En viktig del av projektet var även produktionstestningsfasen under vilken tittare i olika intressegrupper utvärderade de undertexter som hade producerats med hjälp av taligenkänning. Resultaten var minst sagt lovande och återkopplingen från tittarna var positiv: de undertexter som hade producerats med hjälp av taligenkänning kunde bli tillgängliga snabbare än de som gjordes som hantverk, och felen som genererades av taligenkänningen störde – kanske lite förvånande – tittarna mindre än de felaktiga nedslag som ibland även ledde till oväntade bokstavskombinationer som undertextarna gjorde med snabbtangentbord. 

SVT började använda prototypen i produktionen i början av 2018 och vidareutvecklar nu sina egna processer med utgångspunkt i taligenkänningslösningen. Dessutom genererade projektet ett betydande språkligt kapital, som man kommer att använda för att skapa en nationell talresursbank.