Kielen rakenneanalyysi ratkaisujemme kivijalkana

Jos sinua pyydetään piirtämään mahdollisimman tarkka kuva polkupyörästä, lopputulos on todennäköisesti kaukana todellisuudesta. Jos yrität nimetä, minkälaisista osista sanat koostuvat, tehtävä ei todennäköisesti ole yhtään sen helpompi. Kummallakaan taidolla ei ole juurikaan käyttöä arjessa, mutta kun halutaan rakentaa mikä tahansa toimiva koneisto, kohteen anatomia on tunnettava viimeistä yksityiskohtaa myöten.

Lingsoft syntyi akateemisen tutkimuksen tuloksena vuonna 1986, kun kieliteknologian uranuurtajat Kimmo Koskenniemi ja Fred Karlsson havaitsivat luoneensa jotain ainutlaatuista: menetelmän, joilla voidaan mallintaa sana kieliriippumattomasti. Kielen rakenneanalyysin avulla jopa taivutukseltaan erittäin rikasta suomen kieltä voidaan käsitellä koneellisesti. Digitaalisen tiedon aikakaudella on yhä tärkeämpää löytää tarvittava tieto valtavista tekstimassoista, joten kielen rakenneanalyysi on nyt ajankohtaisempi kuin koskaan.

Haasteena rakenteellisesti rikkaat kielet

Englannin kielelle kehitetyt teknologiat eivät usein sovellu suomenkielisen aineiston koneelliseen analysointiin. Syykin on selvä: Koskenniemen mukaan suomen kielessä on teoriassa mahdollista muodostaa yksittäisestä substantiivista noin 2000 eri muotoa. Adjektiiveilla mahdollisia taivutusmuotoja on 6000 ja verbeillä 12 000. Jos kaikki muodot todella esiintyisivät kielessä, olisi suomen kielessä sanoja suunnilleen 1024, eli saman verran, kuin universumissa arvellaan olevan tähtiä. Lingsoftin kieliteknologiaratkaisuiden ydin on kielen rakenneanalyysi, joka mahdollistaa vapaan, rakenteistamattoman tekstin koneellisen analysoinnin rikkaasta taivutuksesta riippumatta.

Koska rakenneanalyysi kehitettiin aikana, jolloin tietokoneiden laskentateho oli mitätön nykyiseen verrattuna, oli menetelmän oltava mahdollisimman ekonominen. Lisäksi menetelmä kehitettiin kieliriippumatomaksi, mikä takasi sen, että helsinkiläisten väitöskirjojen opit levisivät maailmalle Piilaaksoa myöten.

Lingsoft näkee kielen pintaa syvemmälle

Yksinkertaistettuna kielen rakenneanalyysi tarkoittaa sanan taivutus- ja muodostussääntöjen opettamista koneelle, minkä jälkeen sana voidaan kaikissa taipuneissa muodoissaan tunnistaa vapaasta tekstistä, palauttaa sanan perusmuoto, kieliopillinen analyysi ja tunnistaa yhdyssanarajat. Siten esimerkiksi Wordin oikoluku – joka myös perustuu Lingsoftin rakenneanalyysiin – havaitsee, että täysin keksitystä yhdyssanasta pyyhkäisyeletronimikroskoopillaankaankohan puuttuu yksi k-kirjain. Ihmissilmälle virheen huomaaminen on hankalaa, mutta rakenneanalyysin avulla kone pystyy pilkkomaan sanan osiin ja löytämään virheen.


Monitulkintaisuuden tulkintaa

Yli puolet suomen kielen sanoista on monitulkintaisia, kuten sana alusta. Sana voi viitata esimerkiksi alku-substantiivin elatiivin yksikkömuotoon tai alustaa-verbin imperatiivin aktiivimuotoon yksikön toisessa sijassa. Kaikki tulkintamahdollisuudet eivät tosiasiassa ole mahdollisia tietyssä asiayhteydessä, ja analyysimme avulla on mahdollista poistaa tulkinnoista ne, jotka eivät sovi kyseiseen kontekstiin.

"<alusta>"

    "alku"          N ELA SG
    "alusta"      N NOM SG
    "alustaa"      V PRES ACT NEG
    "alustaa"      V IMPV ACT SG2
    "alustaa"      V IMPV ACT NEG SG
    "alunen"      N PTV SG
    "alus"          N PTV SG

Ratkaisusta riippuen kontekstiin sopimattomien tulkintojen pois jättäminen voi näkyä käyttäjälle esimerkiksi parempina oikoluvun korjausehdotuksina, laadukkaana asiasanoituksena tai asiayhteyden ymmärtävänä konekäännöksenä.

Kielen rakenneanalyysi toimii edelleen Lingsoftin ratkaisujen kivijalkana yksinkertaisen tekstihaun parantamisesta aina vaativaan tekstinlouhintaan saakka. Lisäksi se täydentää uudempia, koneoppimiseen perustuvia ratkaisujamme, kuten puheentunnistusta.