Textanalys – Digitaliseringens språk är i strukturerna

Vi producerar enorma mängder information som ofta får en kort livscykel. Normalt är informationen i ett format som är passande för människoögat i form av fri text. Automatisk hantering av ostrukturerad information är dock svårt, i synnerhet när det gäller finska och andra språk som har rikligt med böjningsformer.

Tack vare Lingsofts språkteknologi kan det önskade budskapet uttryckas som fri text och omvandlas till maskinläsbart format med hjälp av analys av språkets struktur.

De centrala användningsområdena för analys av språkets struktur är bland annat:

  • databerikning och datautvinning
  • indexering av data
  • ämnesordsindexering

Analys av textens struktur möjliggör många olika slags verktyg för att hantera och bearbeta stora mängder data. 

Bearbetning av naturligt språk (på engelska Natural Language Processing, NLP) går ut på att förbättra teknologins möjligheter att behandla data i form av skriven text. Lingsofts textanalys innebär i praktiken att man lär ett datorprogram ordbildnings- och stavningsregler. På det sättet kan datorn känna igen ett ord i alla böjningsformer i fri text, ange grundformen, göra en grammatisk analys och uppfatta ordgränser. Språkgranskningen såsom den som Lingsoft utvecklat för Word, som bygger på Lingsofts strukturanalys, identifierar skrivfel och kan ge korrigeringsförslag även för böjda former och sammansatta ord.

Vid informationssökning kan sökmotorn med hjälp av textanalys även hitta dokument i vilka sökordet förekommer i böjd form. 

Sökbarhet för information kan förbättras betydligt med indexering, det vill säga ämnesordsindexering, vilket innebär att man lägger till detaljerade metadata – alltså information om informationen. Det är särskilt användbart vid organisering och hantering av större mängder data. 

Ibland behöver man även koppla semantiskt innehåll till informationen, det vill säga information om begrepps betydelse och förhållandet mellan olika begrepp. Exempelvis iPhone är en viss typ av smart telefon som också är en mobiltelefon. En mobiltelefon är i sin tur en viss typ av telefon. Utöver dessa begreppsnivåer är en iPhone också i slutändan ett livlöst, fysiskt objekt. Med automatisk analysis för olika begreppsnivåer kan man alltså kombinera olika typer av data.

Kontakta oss