Tekstianalyysi - Digitalisaation kieli on rakenteista

Tuotamme valtavia määriä tietoa, jonka elinkaari usein jää lyhyeksi. Tyypillisesti tieto on ihmissilmälle sopivassa muodossa vapaana tekstinä. Rakenteistamattoman tiedon automaattinen käsittely on varsinkin suomen ja muiden rikkaasti taipuvien kielten kohdalla vaikeaa.

Lingsoftin kieliteknologian ansiosta haluttu viesti voidaan ilmaista vapaana tekstinä ja muuntaa se koneluettavaan muotoon luonnollisen kielen rakenneanalyysin avulla.

Keskeisiä kielen rakenneanalyysin käyttötarkoituksia ova muun muassa:

  • tietojen rikastaminen ja datalouhinta
  • tiedon indeksointi
  • asiasanoitus

Tekstin rakenneanalyysi mahdollistaa monenlaisia työkaluja suurten tietomäärien hallintaan ja hyödyntämiseen. 

Luonnollisen kielen analyysi (englanniksi Natural Language Processing, NLP) pyrkii parantamaan teknologian mahdollisuuksia käsitellä tekstiksi kirjoitettua tietoa. Lingsoftin tekstianalyysi tarkoittaa käytännössä kielen sananmuodostus- ja taivutussääntöjen opettamista koneelle. Näin kone voi tunnistaa sanan kaikissa taipuneissa muodoissaan vapaassa tekstissä, palauttaa sen perusmuodon, tehdä kieliopillisen analyysin ja hahmottaa sanarajat. Esimerkiksi Wordin suomenkielinen oikoluku, joka perustuu Lingsoftin rakenneanalyysiin, tunnistaa vaikkapa kirjoitusvirheet taivutuksissa ja yhdyssanoissakin.

Tiedonhaussa tekstianalyysin avulla hakukone löytää myös dokumentteja, joissa hakusana esiintyy taivutetussa muodossa. 

Tiedon löydettävyyttä voidaan parantaa merkittävästi indeksoinnilla eli asiasanoituksella, joka tarkoittaa yksityiskohtaisen metadatan lisäämistä - siis tietoa tiedosta. Tämä on hyödyllistä erityisesti suurten tietoaineistojen järjestelyssä ja käsittelyssä.

Tietoon täytyy joskus liittää myös semanttista tietoa, eli tietoa käsitteiden merkityksestä ja eri käsitteiden välisistä suhteista. Esimerkiksi iPhone on tietynlainen älypuhelin, joka puolestaan on matkapuhelin. Matkapuhelin taas on tietynlainen puhelin. Muiden käsitetasojen jälkeen iPhone lopulta on eloton, fyysinen objekti. Näin tietoja voidaan yhdistellä toisiinsa.

Ota yhteyttä