Tiedonhakujärjestelmillä on rajansa - Mutta mikä olisi paras hakulauseke?
Väitöskirjatutkimuksessa kehitettiin uusi menetelmä tiedonhakujärjestelmien toiminnallisen tehokkuuden mittaamiseen, havainnollistettiin menetelmän soveltamismahdollisuuksia suuriin tekstitietokantoihin liittyvän tutkimuksen avulla sekä arvioitiin menetelmän käyttökelpoisuutta.
Tiedonhakujärjestelmät ovat vuorovaikutteisia atk-sovelluksia, joiden avulla hakijaa kiinnostavien dokumenttien löytäminen pyritään tekemään mahdollisimman vaivattomaksi. Suuriin dokumenttiaineistoihin liittyvät tiedonhaun ongelmat ovat tuttu ilmiö esimerkiksi Internetin sanahakupalveluja (esim. AltaVista tai Ihmemaa) käyttäville. Tiedonhaun kokeellisessa tutkimuksessa pyritään selvittämään miten hyvin tiedonhakujärjestelmät toimivat käyttäjän näkökulmasta ja löytämään uusia menetelmiä hakujen tehostamiseksi. Teknisen järjestelmän toiminnan arviointi on ollut kuitenkin hankalaa, koska perinteiset tutkimusmenetelmät eivät ole selkeästi pystyneet erottelemaan hakijan ja teknisen järjestelmän vaikutusta.
Kehitetty tutkimusmenetelmä perustuu testikokoelman käyttöön, joka sisältää tekstidokumenttien tietokannan, suurehkon joukon määriteltyjä testihakutehtäviä sekä relevanssiarviot siitä, mitkä dokumentit sisältävät testihakutehtävien edellyttämää informaatiota. Väitöskirjatutkimus tuotti kaksi merkittävää menetelmäinnovaatiota:
Testihakutehtävät annetaan yhden tai useamman ammattihakijan analysoitavaksi ja he laativat niistä hyvin kattavat hakusuunnitelmat. Kattavat hakusuunnitelmat kuvaavat periaatteessa kaikki vaihtoehtoiset tavat muotoilla järkeviä kyselyjä annetusta testitehtävästä. Kattavien hakusuunnitelmien perusteella voidaan muodostaa ns. kyselyjen säätelyavaruus. Perinteisissä menetelmissä testitehtäviä edustavat kyselyt tuotetaan melko sattumanvaraisesti ja kattavat vain suppeita osia kyselyjen säätelyavaruudesta.
Toinen innovaatio liittyy kaikkein parhaiten toimivan kyselyn löytämiseen kaikkien tarjolla olevien joukosta. Tämä perustuu kahteen automaattiseen prosessiin, joissa hakusuunnitelmat pilkotaan ensin alkeiskyselyiksi, joista koostetaan parhaiten toimiva alkeiskyselyjen yhdistelmä optimointialgoritmia käyttäen. Optimoinnissa käytetään hyväksi relevanssitietoja ja sen optimointitavoite voidaan määritellä eri hakutilanteita vastaavasti. Optimoinnin tavoitteeksi voidaan esimerkiksi asettaa kysely, joka minimoi käyttäjän selailuvaivan hänen etsiessään kaikki relevantit dokumentit tai vain kymmenen parasta. Menetelmä pystyy näin kartoittamaan teknisen tiedonhakujärjestelmän toiminnallisen tehokkuuden ylärajan eri tilanteissa. Hakija ei missään oloissa voi ylittää tuota tasoa olipa hän kuinka taitava hakija tahansa.
Väitöskirjatutkimuksessa on raportoitu laaja esimerkkitutkimus, jossa menetelmällä selvitettiin suurten tekstitietokantojen tiedonhakuongelmien luonnetta. Tutkimuksessa pystyttiin löytämään uutta tietoa mm. parhaiten eri hakutilanteissa toimivista kyselyrakenteista sekä näyttämään missä tilanteissa perinteiset Boolen kyselyt toimivat hyvin, missä tilanteissa kohdataan ongelmia. Tietokannan suuruus, esimerkiksi Internetin sadat miljoonat dokumentit, eivät yleensä ole ongelma teknisen hakujärjestelmän kannalta, jos haetaan rajattua määrää, vaikkapa 10 tietyn aihepiirin dokumenttia. Sen sijaan käyttäjä voi pitää vastaavaa tilannetta ongelmallisena, jos hän ei keksi miten hyödyntää tehokkaasti järjestelmän mahdollisuuksia.
Tutkimusmenetelmän käyttökelpoisuutta arvioitiin mm. esittelemällä sen soveltamismahdollisuuksia, vertaamalla menetelmän käytön tehokkuutta ja taloudellisuutta perinteisiin menetelmiin ja testaamalla empiirisesti kattavien hakusuunnitelmien ja optimointituloksen uskottavuutta. Voitiin todeta, että menetelmä täyttää keskeiset tieteellisessä tutkimuksessa menetelmille asetetut kriteerit.
Tutkimuksen keskeinen tieteellinen hyöty on siinä, että se kaataa raja-aitoja laboratorio- ja käyttäjäsuuntautuneiden tutkimuslinjojen väliltä. Tiedonhaun ilmiöitä voidaan tutkia laboratorioympäristössä niin, että hakija kyselyjen muotoilun asiantuntijana otetaan mukaan tiedonhakuprosessiin eikä eristetä siitä. Käytännön hakijan näkökulmasta tutkimuksessa pystyttiin hahmottelemaan perinteisten Boolen-hakujärjestelmien maksimaalista toimintamekanismia suurissa tekstitietokannoissa. Yksittäiseen tiedonhakuun liittyvää vastausta tutkimus ei luonnollisesti voi antaa mutta se auttaa huomaamaan eri tilanteissa, mistä suunnasta parhaiten toimivaa Boolen lauseketta kannattaa lähteä hakemaan.