Kullan louhintaa potilaskertomuksista

 

Vapaana tekstinä kirjatun potilastiedon koneellinen hyödyntäminen on haastavaa, sillä yksinkertainenkin asia voidaan ilmaista lukuisin eri tavoin. Lingsoft vastaa Varsinais-Suomen sairaanhoitopiirin tietoaltaan indeksoinnista ja tekstinlouhinnasta yhteistyössä Auria Palveluiden kanssa.

Auria Biopankki on Suomen ensimmäinen biopankki. Sen näytekokoelmassa on noin miljoona näytettä, joita käytetään lääketieteelliseen tutkimustyöhön. Vaikka biopankkinäytteet itsessään ovat arvokkaita tutkijoille, kasvaa niiden arvo huimasti, kun ne voidaan yhdistää potilaskertomuksissa olevaan tietoon. Potilaskertomustietoa hallinnoi Auria Tietopalvelu – myös ensimmäinen laatuaan Suomessa. Sen tehtävänä on järjestää, harmonisoida ja ylläpitää sairaanhoitopiirin lukemattomiin tietojärjestelmiin kertyviä potilastietoja, jotta tieto olisi mahdollisimman hyvin tutkijoiden ja muiden asiantuntijoiden käytettävissä.

Lingsoft on erikoistunut kliinisen kielen analysointiin vuodesta 2008, ja terveydenhuolto on yksi nopeimmin kasvavista asiakassektoreistamme. Pitkäjänteinen erikoistuminen ja ainutlaatuinen ydinteknologia vakuuttivat myös Auria Palvelut, joiden kanssa aloitimme potilastiedon tietoaltaan indeksoinnin ja tekstinlouhinnan syksyllä 2017.

Tutkittua tietoa, turvallista hoitoa

Vapaana tekstinä kirjatun potilastiedon koneellinen hyödyntäminen on haastavaa, sillä niinkin tavallinen asia, kuin tupakointi voidaan ilmaista lukuisilla eri tavoilla – monimutkaisemmista ilmiöistä puhumattakaan. Työtä vaikeuttavat lisäksi esimerkiksi kirjoitusvirheet ja slangi: hoitajien kirjauksissa käsitteellä noradrenaliini on tutkittu olevan huimat 60 perusmuotoa.
 
Tiedon etsimiseen vapaasta tekstistä, eli tekstinlouhintaan tarvitaan kieliteknologiaa, joka Aurian tapauksessa soveltuu paitsi suomen kielen myös kliinisen kielen analysointiin. Lingsoftin kieliteknologialla haluttujen ilmiöiden löytäminen potilaskertomuksista on mahdollista: voimme palauttaa sanat perusmuotoonsa ja rikastaa niitä semanttisella tiedolla. Ontologioihin perustuva semanttinen tieto ylä- ja alakäsitteineen ja ohjaustermeineen tuo tiedonhakuun uuden ulottuvuuden, jolla voidaan ohittaa osa synonymiaan liittyvistä haasteista. Lisäksi teksteistä voidaan tunnistaa muita haluttuja rakenteita, kuten nimet tai henkilöturvatunnukset, joiden anonymisoinnin ja pseudonymisoinnin teknologiamme mahdollistaa. Tekstinlouhintaa varten indeksoitiin yli 250 miljoonaa kirjausta Auria Tietopalvelun ylläpitämässä ja sen palomuurien sisällä sijaitsevassa tietoaltaassa ilman, että potilastietoa siirrettiin mihinkään.
 
“Tehokas ja turvallinen hoito perustuu tutkittuun tietoon. Odotan tekstinlouhinnalta paljon, ja aika näyttää, millaisia työkaluja pystymme kehittämään lääkäreiden ja tutkijoiden avuksi,” kertoo Auria Tietopalvelun johtaja Arho Virkki.

Myös kansainvälinen kiinnostus suomalaiseen biopankki- ja potilastietoon on ollut laajaa: tieto on luotettavaa, sähköistä, yhdistettävissä eri järjestelmistä ja sitä on pitkältä ajalta. Lisäksi suomalainen geeniperimä kiehtoo. Ilman oikeanlaista kuokkaa kullan louhinta jää kuitenkin vain haaveeksi. Sama pätee myös muihin toimialoihin, joiden haasteisiin Lingsoftin ratkaisuilla voidaan vastata.