Suurten tekstiaineistojen tallentaminen ja arkistoiminen elektronisesti on tullut yhä edullisemmaksi. Samalla perinteiset tekstin tallennus- ja hakumenetelmät ovat alkaneet jäädä tehottomiksi.
Tallennus- ja hakutulosten voidaan olettaa paranevan, kun käytetään menetelmiä, jotka ottavat kunkin kielen erityisominaisuudet huomioon. Tutkimuksessa selvitettiin, miten suomen kielen morfologisten tulkintaohjelmien eli sanoja tunnistavien ja muokkaavien tietokoneohjelmien avulla voidaan ratkaista ongelmia, jotka johtuvat suomen kielen erityispiirteistä. Morfologisten tulkintaohjelmien avulla voidaan muun muassa toteuttaa hakujärjestelmä, jossa otetaan huomioon suomen sanojen taipuminen ja jaetaan yhdyssanat osiinsa.
Tutkimus oli luonteeltaan laboratorioympäristössä toteutettu evaluointitutkimus. Siinä rakennettiin erityinen testausympäristö, jossa samasta tekstiaineistosta tuotettiin joukko erilaisia tietokantoja. Aineistona oli otos suomalaisesta sanomalehtiarkistosta.
Kun hakujärjestelmän hakemistoon tallennettavat sanat normalisoitiin eli kaikki taivutusmuotoiset sanat palautettiin perusmuotoonsa, ts. sanakirjamuotoon (esimerkiksi: kaupoissa -> kauppa), hakemisto tarvitsi vähemmän tietokoneen muistitilaa kuin vastaava, normalisoimaton hakemisto.
Kun tekstin sanat morfologisilla tulkintaohjelmilla palautettiin perusmuotoon ja perusmuodot tallennettiin hakemistoon, tiedonhakujen tulokset olivat tarkempia kuin silloin, kun sanoja ei ollut perusmuotoistettu. Toisaalta havaittiin, että on tärkeää hakea myös perusmuotojen rinnakkaisilmaukset, kuten johdokset (vero -> verottaminen, verotus) ja yhdyssanat (vero -> autovero), jotta olennaista tietoa ei jäisi löytymättä.
Tutkimuksen perusteella sanojen perusmuotoistaminen kannattaa, koska perusmuotohakemistosta tehtyjen tiedonhakujen tulokset ovat yhtä hyvät tai paremmatkin kuin silloin, kun tulkintaohjelmia ei ole käytetty. Hakemista helpottaa, ettei hakijan tarvitse välittää sanojen taipumisesta. Toisaalta sanojen perusmuotoistaminen tekee mahdolliseksi hyödyntää uusia tallennus- ja hakumenetelmiä, joita on kehitetty muissa kielissä, joissa sanojen taipuminen ja yhdyssanojen esiintyminen on vähäisempää kuin suomessa.