Digitaliseringens språk är i strukturerna

Vi producerar enorma mängder information som ofta får en kort livscykel. En text som producerats med mycket möda ackumuleras i olika system, och det är inte lätt att hitta den information man vill ha i dem. Enligt en undersökning av McKinsey lägger informationsarbetare så mycket som 19 procent av sin tid på att söka efter information. 

Förutom att information ackumuleras skapar dess format problem: vi producerar främst information i en form som passar det mänskliga ögat, dvs. fri text. Automatisk hantering av ostrukturerad information är svårt, i synnerhet när det gäller finska och andra språk som har rikligt med böjningsformer. Tack vare Lingsofts teknologi kan det önskade budskapet uttryckas som fri text och omvandlas till maskinläsbart format med hjälp av analys av språkets struktur.

Metadata ökar upptäckbarheten

Digitalisering av språk innebär inte enbart att man byter ut pennan mot ett tangentbord, utan texterna ska även kunna struktureras och berikas. Det räcker dock inte att texten delas in i rubriker och stycken, som exempelvis i de nuvarande patientjournalsystemen. En möjlighet att digitalisera språket och förbättra informationens upptäckbarhet är att indexera texter, då dokumenten berikas med detaljerade metadata, information om informationen. Vi har exempelvis analyserat och berikat Egentliga Finlands sjukvårdsdistrikts elektroniska patientjournaluppgifter – över 260 miljoner texter – ord för ord. 

Resultatet av detta är att sökmotorn hittar en många gånger större mängd dokument, där sökordet förekommer i böjd form eller som en del av ett sammansatt ord. Sökresultaten kan poängsättas enligt de önskade kriterierna och utöver enskilda ord kan man även uppmärksamma likheter mellan hela texter. Samtidigt kan man välja vad man inte vill hitta, så att alltför vanliga uttryck inte stör sökningen. 

Närmare mänsklig förståelse

Utöver språklig information kan man även lägga till semantisk information, det vill säga information om ordens betydelse, genom indexering. Många av våra lösningar använder ontologier, där relationerna mellan begrepp beskrivs i maskinläsbar form. Inom datavetenskap används ontologier för att försöka modellera världen på det sätt som människorna upplever den. Med hjälp av ontologier är det också möjligt att se bortom ordnivån: i en ontologi är tobak ett njutningsmedel kopplat till nikotin, som i sin tur är en kemisk förening. På motsvarande sätt är iPhone en smarttelefon, som är en mobiltelefon, som är en mobil enhet och som efter de övriga begreppsnivåerna i slutändan är ett livlöst fysiskt objekt. Denna information är vardag för oss, men en dator måste lära sig samma sak på ett eller annat sätt.  

Indexering med hjälp av offentliga Finto-ontologier gör att informationen blir kompatibel mellan olika organisationer och enheter. Med ontologier kan man snabbt och objektivt indexera omfattande textmaterial som redan ackumulerats, exempelvis hela arkiv. Indexering förlänger livscykeln och användbarheten för informationen, i och med att det är enklare att hitta enskilda dokument. Samtidigt kan man även upptäcka samband och förhållanden mellan olika begrepp och fenomen. Den semantiska webbens teknologier och data som länkas med hjälp av dem gör dessutom informationen kompatibel globalt. 

 

Värde enligt kundens behov 

Det är bara en definitionsfråga vilka andra fenomen och element vi kan hitta i texterna. Exempelvis EU:s dataskyddsförordning (GDPR) gjorde det aktuellt att söka efter och avidentifiera namn och andra identifieringsuppgifter i texter, vilket man kan göra med hjälp av Lingsofts lösningar. Utifrån kundåterkoppling kan man definiera tonen i återkopplingen eller dess ämnesområde, i patientjournaler kan man identifiera vilka åtgärder som vidtagits när det gäller patienten och i kommentarsfält kan man gallra bort kränkande kommentarer. Kundens behov avgör vad man analyserar i texterna och vad som ger lösningen värde.