Puhe kuuluu (ja näkyy) kaikille – reaaliajassa

Lingsoft kehitti SVT:lle ratkaisun suorien säälähetysten tekstittämiseen puheentunnistuksen avulla. Projekti oli osa Ruotsin posti- ja telehallituksen saavutettavuushanketta, ja sen tuloksena syntyi myös merkittävää kielellistä pääomaa Ruotsin kansallista kieliresurssipankkia varten.

Ruotsin posti- ja telehallitus (PTS) ja Ruotsin televisio (SVT) järjestivät vuonna 2015 kilpailutuksen, jonka tavoitteena oli kehittää SVT:lle puheentunnistusavusteinen prototyyppiratkaisu suorien säälähetysten tekstittämistä varten. Projekti oli osa laajaa valtiollista hanketta, jonka tarkoituksena oli kehittää Ruotsin kansallista kieli-infrastruktuuria ja edistää puhepohjaisten ratkaisujen ja palvelujen kehittämistä Ruotsin markkinoille. Prototyypin toimittajaksi valittiin Lingsoft.

Saavutettavuutta reaaliajassa

SVT on julkisen palvelun TV-yhtiö, ja sen tulee toimilupansa mukaisesti tekstittää 100 % nauhoitetuista ja 65–80 % suorista lähetyksistään kuulovammaisille tai muista syistä tekstitystä tarvitseville katsojille. Vuosittain tämä tarkoittaa noin 18 000:aa tuntia ruotsiksi tekstitettyjä ruotsinkielisiä TV-ohjelmia. PTS:llä ja SVT:llä on yhteinen päämäärä: parantaa julkisten palvelujen saavutettavuutta ja käytettävyyttä, ja tuoda tieto ja sisällöt kaikkien käyttäjäryhmien ulottuville käyttäjän iästä, toimintakyvystä, vammoista tai muista erityistarpeista riippumatta.

Luettavuus ja ymmärrettävyys on ohjelmatekstityksissä keskeistä. Suorien lähetysten tekstittämisessä tämä on erityisen haasteellista, sillä nopeakaan kirjoittaja ei kykene tuottamaan virheetöntä tekstiä puheen tahdissa – saati laadukkaita, puheen ja kuvan rytmiä seuraavia ruututekstejä. SVT:llä live-tekstittäjillä on käytössään erityinen pikakirjoitusnäppäimistö (ns. Velotype), mutta sen opettelu ja suvereeni hallinta edellyttää kuukausien tai jopa vuosien harjaantumista.

Ei pelkkää teknologiaa, vaan uusi prosessi

Ratkaisua lähdettiin hakemaan uudistamalla tekstitysprosessia: yhdistämällä automaattinen puheentunnistus ja ns. uudelleenpuhunta eli respeakaus. Lingsoft kehitti vapaasti saatavilla olevien puhe- ja tekstiaineistojen sekä SVT:n omien aineistojen pohjalta koneoppimiseen ja syviin neuroverkkoihin pohjautuvan puheentunnistusratkaisun, joka voitiin liittää SVT:n omaan tekstitysjärjestelmään. Ratkaisu opetettiin ottamaan huomioon erityisesti säätiedotusten terminologia sekä SVT:n tekstityssäännöt ja käytännöt. Lisäksi tekstittäjien käyttöön tuotiin äänikomentoja, joiden avulla esimerkiksi välimerkit, rivinvaihdot tai tekstin väri saatiin muutettua ilman näppäimistöä. Katso video tekstitysprosessista alla.

 

Kaikilla mittareilla onnistunut IT-projekti

Projekti kesti 13 kuukautta ja onnistui kaikilla mittareilla loistavasti: toimitus tapahtui etuajassa, ja asiakkaan vaatimukset ylitettiin kirkkaasti sekä sekä puheentunnistuksen laadun että puheentunnistusnopeuden suhteen. Onnistumisen edellytys oli tiivis ja toimiva yhteistyö asiakkaan kanssa, ja heidän tarpeidensa aito ymmärtäminen.

Projektiin kuului olennaisena osana myös tuotantotestausvaihe, jossa eri sidosryhmiin kuuluvat katsojat arvioivat puheentunnistuksen avulla tuotettuja tekstityksiä. Tulokset olivat vähintäänkin lupaavia ja katsojapalaute positiivista: puheentunnistuksen avulla tuotetut tekstitykset olivat saatavilla nopeammin kuin käsityönä tehdyt, ja puheentunnistuksen tuottamat virheet häiritsivät katsojia – ehkä yllättäenkin – vähemmän kuin tekstittäjän pikakirjoitusnäppäimistöllä tekemät, joskus odottamattomiinkin kirjainyhdistelmiin johtavat, lyöntivirheet.

SVT otti prototyypin tuotantokäyttöön vuoden 2018 alussa, ja kehittää nyt omia prosessejaan eteenpäin puheentunnistusratkaisun pohjalta. Lisäksi projektin tuloksena syntyi merkittävää kielipääomaa, jonka pohjalle perustetaan Ruotsin kansallinen puheaineistopankki.