Väitöskirjatutkimuksessa käsitellään rinnakkaistekstikorpuksien keräämistä ja käyttömahdollisuuksia. Tähän tarkoitukseen on koottu venäjä-suomi-rinnakkaiskorpus ParRus, jossa on venäjänkielistä kaunokirjallisuutta ja sen suomennoksia. Korpuksen koko on noin 2,2 miljoonaa sanaa kummallakin kielellä ja sitä varten on kehitetty oma ohjelmapaketti. Erikielisten tekstien kohdentamiseksi (aligning) sekä venäjän- että suomenkielisten sanalistojen lemmatisoimiseksi on jouduttu kehittämään työkalut. Korpuksen tekstien valinnassa hyödynnettiin tekeillä olevaa venäjästä suomennetun kirjallisuuden bibliografiaa, jonka tiedoista muodostettiin tietokanta. Tutkimalla bibliografian sisältämää tietoa tehtiin tarpeelliset luokitukset ja määriteltiin valintakriteerit.
Tutkimuksessa esitellään ParRus-korpuksen ohjelmapakettiin kehitettyjä työkaluja, joiden avulla muodostetaan frekvenssisanalistoja, kollokaatiota, konkordansseja jne. Työssä käsitellään erilaisia tietokonelingvistisiä ongelmia kuten lemmatisointia, tekstien kohdentamista, sanavastineiden hakua ym. ja niiden mahdollisia ja tässä tutkimuksessa toteutettuja ratkaisuja.
ParRus-korpuksen aineistolla on tutkimuksessa myös esimerkinomaisesti suoritettu joitakin kieli- ja käännöstieteellisesti kiinnostavia analyyseja. Käännöskielen ominaispiirteitä haettiin analysoimalla välimerkkien käyttöä, sanastoa ja kielioppia. Anaalyysi osoitti, että lähdetekstin vaikutus näkyy tuloksissa ja käännöskieli poikkeaa siten "standardikielestä". Tutkimuksessa on käsitelty myös ns. kulttuurisesti merkittävien sanojen kääntämisen ongelmaa. Rinnakkaiskorpuksen käännökset osoittavat ainakin sen, että maailmankuvan ongelmat eivät estä käännösprosessia. Korpuksesta saatujen käännösekvivalenttien ja sanakirjoista poimittujen sanavastineiden vertailu taas osoittaa sanakirjan vaikuttavan kääntäjään.