Käyttöliittymänä puhe

Lingsoft-9-k.jpg

Puhe on ihmiselle luontevin tapa kommunikoida. Se on nopeaa, helppoa ja vapauttaa kädet muihin töihin. Toisaalta puhekäyttöliittymät ovat myös niiden käyttäjien saavutettavissa, joille kirjoittaminen näppäimistöllä on syystä tai toisesta mahdotonta. Puheteknologia onkin yksi tärkeimmistä tulevaisuuden teknologioista: MarketsandMarkets Researchin arvion mukaan puheentunnistukseen perustuva liiketoiminta kasvaa vuosittain huimat 20 %.

Lingsoft on kehittänyt puheentunnistusta yli kahden vuosikymmenen ajan. Hyödynnämme puheentunnistusta osana palvelutuotantoamme ja tarjoamme asiakkaillemme organisaatiotason puheentunnistusratkaisuja. Ratkaisujen lähtökohtana on asiakkaan tarve: yleiskielen puheentunnistus soveltuu sellaisenaan moniin käyttötapauksiin, mutta lisäksi räätälöimme kielimalleja rajattujen ammattikielten, kuten terveydenhuollon erikoisterminologian tunnistamiseen. Räätälöitävien kielimallien lisäksi huomioidaan tuotantoprosessi, mikä vaikuttaa ratkaisun muotoiluun. Suomen lisäksi toimitamme puheentunnistusratkaisuja ruotsiksi ja muilla pohjoismaisilla kielillä.

Pyrimme huomioimaan ratkaisuissamme kokonaisvaltaisesti, mikä on tekstin tuottamisen tavoite ja miten tekstiä voitaisiin tuotannon yhteydessä tai sen jälkeen hyödyntää. Onhan puhe lopulta vain yksi, nopea tapa tuottaa tekstiä ja tallentaa tietoa. Lue lisää tekstianalytiikasta.

Parempilaatuisia tekstejä entistä nopeammin

Lingsoftin puheentunnistus on Suomen johtavien puheentunnistusasiantuntijoiden kehittämä, ja teemme läheistä yhteistyötä alan parhaan yliopistotutkimuksen kanssa. Nykyiset puheentunnistusratkaisumme perustuvat koneoppimiseen ja syviin neuroverkkoihin (deep neural network).

Koneoppimiseen perustuvan puheentunnistuksen laatu on lähtökohtaisesti yhtä hyvää kuin puheentunnistusmallin opetuksessa käytetty aineisto. Usein onkin niin, että opetusaineisto vilisee kirjoitusvirheitä tai muita rakenteita, joita koneen ei haluta toistavan puheentunnistustuloksessa. Lingsoftin vahvuus on kielianalyysi, joilla opetusaineistoja voidaan esikäsitellä, esimerkiksi korjata virheitä tai anonymisoida arkaluontoisia aineistoja.

Puheentunnistus perustuu todennäköisyyksiin: mallille opetetaan suurten ääni- ja tekstiaineistojen perusteella, mitkä sananosat todennäköisesti esiintyvät missäkin asiayhteydessä. Ammattikielessä sanasto on rajatumpi kuin yleiskielessä, mistä johtuen tunnistustarkkuus on sitä parempi, mitä rajatummalle alueelle siirrytään. Esimerkiksi ruotsin televisiolle tekemämme sääennustusten puheentunnistusmallin tuottamassa tekstissä virheellisiä sanoja on noin 2 %. Teksti on käytännössä virheettömämpää, kuin ihmisen kirjoittaessa.

speech_to_text.jpg

On ilmeistä, että korkealaatuinen puheentunnistus osana kirjoitus- ja tekstinkäsittelyprosessia nopeuttaa huimasti tekstien tuotantoa. Esimerkiksi terveydenhuollossa puheentunnistuksen avulla tuotetun tekstin kirjaaminen vie saman ajan, kuin sen saneleminen kestää. Käytännössä tämä mahdollistaa reaaliaikaisen kirjaamisen ja suurten ääniaineistojen kustannustehokkaan litteroinnin.

Lue lisää eri puheentunnistusprosesseista täältä