#Tietokiri-case: Tulossopimusten tekstianalyysi

Mitä ongelmaa ratkaistiin ja miksi?

Analyysin tavoitteena oli tunnistaa tekstianalytiikan keinoin miten julkisen hallinnon strategian tavoitteet ihmiskeskeisyydestä, hallinnon yhtenäisyydestä ja yhdessä tekemisestä tulevat virastojen tulossopimuksissa esiin. Pyrkimyksenä oli muodostaa pohja tulevien vuosien tarkastelulle, jotta voidaan vertailla tulevien tulossopimusten sisällön kehitystä strategian näkökulmasta.

Mitä tehtiin?

Tulossopimusten ja toimintalinjausten lauseiden semantiikkaa vertailemalle voidaan pyrkiä selvittämään esiintyykö toimintalinjausten asiat tulossopimuksissa.

Vuoden 2021 tulosopimukset pilkottiin lauseiksi ja julkisen hallinnon strategian toimintalinjauksista 1 (ihmislähtöiset palvelut) ja 5 (yhtenäinen hallinto) muodostettiin vertailtavia lauseita. Toimintalinjausten lauseet eivät sellaisenaan soveltuneet käytetylle menetelmälle, sillä ne ovat monimerkityksellisiä eivätkä vastaa tapaa, jolla virastot saattaisivat tuoda asioita esille tulossopimuksissa.

Tulossopimusten ja toimintalinjauksista muodostettujen lauseiden semanttista samankaltaisuutta mitattiin Sentence-BERT -mallilla. Tekstin semanttisen samankaltaisuuden mittaaminen tarkoittaa samankaltaisuuden laskemista sellaisten termien tai lausumien välillä, joilla on sama merkitys.  Sentence-BERT (sBERT) on luonnollisen kielen käsittelymenetelmä, joka käsittelee kutakin lauseen sanaa suhteessa lauseen muihin sanoihin ja tätä kautta pyrkii ymmärtämään sanan asiayhteyden. Mallin tuottamien lausevektoreiden samankaltaisuuden mittaamisen metriikkana käytettiin kosinisamankaltaisuutta (cosine similarity).

Mitä saavutettiin?

Lauseita, joilla on sama merkitys, nousi esiin jonkin verran, mutta yksiselitteisten johtopäätösten vetämistä analyysistä hankaloittaa muun muassa seuraavat aineistoon ja menetelmään liittyvät asiat.

  • Toimintalinjauksista muodostetut lauseet eivät välttämättä sisällä kaikkea oleellista tietoa, jotka saattaisivat jossain toisessa muodossa tulla esiin tulossopimuksissa.
  • On hankala määrittää millä tasolla toimintalinjausten asiat tulisi näkyä tulossopimuksissa. Riittääkö, että asia tulee kerran esille, vai tuleeko sen esiintyä useasti eri konteksteissa?

Tulosten mahdollinen merkitys syntyy vasta, kun vertaillaan analyysin tuloksia tulevien vuosien tulossopimuksista tehtyyn vastaavaan analyysiin.

Mitä seuraavaksi?

Analyysi toteutetaan myöhemmin uudelle sarjalle tulossopimuksia. Mikäli strategian linjaukset huomioidaan paremmin seuraavassa sarjassa tulossopimuksia, voidaan olettaa, että merkityksellisten lauseiden määrä sekä niiden kosinisamankaltaisuuksien keskiarvo kasvaa.