Tänä päivänä Internet on tuonut ulottuvillemme hyvin laajan ja nopeasti kasvavan joukon erikielistä informaatiota. Useat meistä hallitsevat jotakin vierasta kieltä siinä laajuudessa että pystymme lukemaan ja omaksumaan vieraskielistä tekstiä, sen sijaan tiedohaku joka vaatii oikeiden käsitteiden hallitsemista vieraalla kielellä on selvästi vaikeampaa. Tämä väitöskirja käsittelee kieltenvälistä tekstitiedonhakua missä kysely suoritetaan eri kielellä kuin kohteena olevat dokumentit, eli haun lähtökieli on eri kuin kohdekielenä oleva dokumenttitietokanta.
Tiedonhaussa käytettävät ohjelmat on perinteisesti kehitetty vastaamaan englannin kielen tarpeita kun taas pienten kielten tarpeet esim. ruotsi ja muut skandinaaviset kielet ovat jääneet vähemmälle huomiolle. Eri kielet ovat kuitenkin ominaisuuksiltaan hyvin erilaiset ja väitöskirjan tutkimustuloksena todetaan että kielelliset aspektit on syytä huomioida erityisesti kun luodaan ja tutkitaan kieltenvälisen tiedonhaun periaatteita ja kehitetään kieltenvälisen tiedonhaun ohjelmia. Tutkimuksessa perehdytään erityisesti yhdyssanaongelmaan yhdyssanarikkaissa kielissä kuten ruotsi, suomi ja saksa sekä kehitellään menetelmiä niiden hallintaan kieltenvälisessä tiedonhaussa.
Tutkimuksen empiirisessä osassa kehitettiin kieltenvälisen tiedonhaun tarpeisiin automaattista sanakirjaperusteista kyselyn käännössysteemiä UTACLIR. Systeemin evaluoinnissa käytettiin hyvin laajaa, 80 kyselyä käsittävä setti kolmella kielellä (ruotsi, suomi ja saksa) ja systeemin koko toimintaa kuten myös sen osakomponenttien toimintaa testattiin englanninkieliseen dokumenttitietokantaan. Systeemiä on evaluoitu myös kansainvälisellä evaluointifoorumillä peräkkäisinä vuosina hyvin tuloksin.