VAD BYGGER VÅRA SPRÅKTEKNOLOGIER PÅ?

ANALYS AV SPRÅKETS STRUKTUR ÄR HÖRNSTENEN I VÅRA LÖSNINGAR

Om man bad dig att rita en så precis bild som möjligt av en cykel skulle slutresultatet troligtvis vara långt ifrån verkligheten. Att försöka ange vilka olika delar ord består av är förmodligen inte ett dugg lättare. Ingen av dessa färdigheter har man särskilt stor nytta av i vardagen, men när man vill bygga ett fungerande maskineri, vilket som helst, måste man känna till objektets anatomi in i minsta detalj. 

Lingsoft uppstod som ett resultat av akademisk forskning år 1986, när språkteknologins två pionjärer Kimmo Koskenniemi och Fred Karlsson upptäckte att de skapat något unikt: en språkoberoende metod för att modellera ord. Genom att analysera språkets struktur kan man maskinellt hantera språket, till och med finskan med dess rikliga böjningar. I den digitala informationens tidsålder blir det allt viktigare att hitta den nödvändiga informationen i enorma textmassor, och därför är analys av språkets struktur nu mer aktuellt än någonsin. 
 

Strukturellt rika språk en utmaning

Teknologi utvecklad för engelska lämpar sig oftast inte för maskinell analys av finskspråkigt material. Anledningen är uppenbar: Enligt Koskenniemi kan man på finska i teorin bilda cirka 2 000 olika former av ett enda substantiv. Antalet möjliga böjningsformer för adjektiv är 6 000 och för verb 12 000. Om alla former verkligen förekom i språket skulle antalet ord i finskan uppgå till ungefär 10²⁴, det vill säga lika många som antalet stjärnor man tror finns i universum. Kärnan i Lingsofts språkteknologilösningar är analys av språkets struktur, vilket möjliggör en fri, ostrukturerad maskinell analys av texten oberoende av eventuella böjningar.

Eftersom strukturanalysen utvecklades under en tid då datorernas beräkningseffektivitet var obetydlig jämfört med idag behövde metoden vara så ekonomisk som möjligt. Dessutom utvecklades metoden så att den blev språkoberoende, vilket garanterade att lärdomarna från doktorsavhandlingarna från Helsingfors kunde spridas runt världen, inklusive till Silicon Valley.

Lingsoft ser djupare än språkets yta

Förenklat betyder analys av språkets struktur att man lär en dator böjnings- och ordbildningsreglerna, varefter ord kan identifieras i alla böjda former i fri text, grundformer kan återställas, texten kan analyseras och sammansättningsgränser kan identifieras. På det sättet upptäckter exempelvis stavningskontrollen i Word – som också bygger på Lingsofts strukturanalys – att bokstaven k saknas i det påhittade finska ordet pyyhkäisyeletronimikroskoopillaankaankohan. För det mänskliga ögat är det svårt att upptäcka felet, men med hjälp av strukturanalys kan datorn plocka isär ordet i delar och hitta felet.

Tolkning av flertydiga ord

Över hälften av orden i finskan kan tolkas på olika sätt, som exempelvis ordet alusta. Ordet kan exempelvis hänvisa till elativ singular av substantivet alku eller aktivformen i imperativ av verbet alustaa i andra person singularis. Alla tolkningsmöjligheter är i själva verket inte möjliga i en viss kontext, och med hjälp av vår analys kan man utesluta de tolkningar som inte passar in i den givna kontexten. 
 

"<alusta>"

    "alku"          N ELA SG
    "alusta"      N NOM SG
    "alustaa"      V PRES ACT NEG
    "alustaa"      V IMPV ACT SG2
    "alustaa"      V IMPV ACT NEG SG
    "alunen"      N PTV SG
    "alus"          N PTV SG

Att utesluta tolkningar som inte passar in i kontexten kan beroende på lösning synas för användaren som exempelvis bättre rättelseförslag i stavningskontrollen, indexering av hög kvalitet eller maskinöversättning som förstår kontexten. 

Analys av språkets struktur är fortfarande hörnstenen i Lingsofts lösningar för att förbättra alltifrån enkel textsökning till krävande textutvinning. Dessutom kompletterar det våra nyare lösningar som bygger på maskininlärning, till exempel taligenkänning