SULJE VALIKKO

avaa valikko

"Practical Methods for Approximate String Matching Tietojenkäsittelytieteiden laitos. A-2003-4 Acta Electronica Universitatis Ta
37,80 €
Tampereen yliopiston laitosten julkaisut
Sivumäärä: 106 sivua
Julkaisuvuosi: 2003 (lisätietoa)
Kieli: Englanti

Merkkijonohaku tarkoittaa hakusanan esiintymien etsimistä tekstistä. Tällainen toiminto on yleinen esimerkiksi tekstinkäsittelyohjelmissa tai tietokantahauissa. Varsinkin tietokantahauissa käytetään usein indeksoitua merkkijonohakua, jossa haku saadaan tehtyä hyvin nopeasti käyttäen etukäteen tietokannan aineistosta koostettua indeksirakennetta.

Usein käytetään ns. eksaktia merkkijonohakua, jossa etsitään ainoastaan hakusanan kanssa identtisiä tekstinosia. Eksakti merkkijonohaku ei kuitenkaan välttämättä löydä kaikkia haluttuja tekstin kohtia, jos teksti tai hakusana voi sisältää kirjoitusvirheitä tai niiden kirjoitusasu muuten poikkeaa. Esimerkiksi hakusana "Tschaikovski" ei täsmää "Tschaikovskyn" tai "Tshaikovskin" kanssa, vaikka näiden jälkimmäisten kirjoitusmuotojen esiintymät voisivat olla hakijan kannalta kiinnostavia. Toinen esimerkki eksaktin merkkijonohaun rajoituksista on merkkijonohaku perimä- eli DNA-sekvenssistä. DNA-sekvensseissä tyypillisesti esiintyvä pieni vaihtelu esim. mutaatioiden seurauksena tekee eksaktin merkkijonohaun riittämättömäksi.

Likimääräinen merkkijonohaku pyrkii ottamaan variaation (esim. kirjoitusvirheet) huomioon etsimällä sellaiset tekstinosat, jotka ovat riittävän samankaltaisia hakusanan kanssa. Merkkijonojen välistä samankaltaisuutta mitataan usein editointietäisyydellä, ts. etsitään sellaisia merkkijonoja joiden editointietäisyys hakusanasta katsotaan riittävän pieneksi. Kahden merkkijonon välinen editointietäisyys määritellään usein pienimmäksi tarvittavaksi editointioperaatioiden lukumääräksi, joka tarvitaan kun merkkijonot editoidaan keskenään identtisiksi. Yksittäinen editointioperaatio voi tyypillisesti olla yhden merkin lisäys, poisto tai korvaus toisella merkillä. Lisäksi varsinkin kirjoitusvirheiden yhteydessä on tyypillistä sallia myös ns. transpositio, joka vaihtaa kahden vierekkäisen merkin paikkaa keskenään. Esimerkiksi hakusana "Tschaikovski" täsmää sekä "Tschaikovskyn" että "Tshaikovskin" kanssa, jos käytetään likimääräistä merkkijonohakua sallien yhden editointioperaation virhe.

Väitöskirjatutkimuksessa on tutkittu ja edelleen kehitetty käytännössä tehokkaita menetelmiä likimääräiseen merkkijonohakuun. Työ sisältää menetelmiä editointietäisyyden laskemiseen, likimääräiseen merkkijonohakuun sekä indeksoituun likimääräiseen merkkijonohakuun. Työssä myös esitetään empiirisiä vertailuja uusien ja aiempien menetelmien välillä, ja vertailujen pohjalta voidaan sanoa että uudet menetelmät toimivat monessa tapauksessa aiempia huomattavasti nopeammin.



Tuotetta lisätty
ostoskoriin kpl
Siirry koriin
LISÄÄ OSTOSKORIIN
Tilaustuote | Arvioimme, että tuote lähetetään meiltä noin 1-2 viikossa
Myymäläsaatavuus
Helsinki
Tapiola
Turku
Tampere
"Practical Methods for Approximate String Matching Tietojenkäsittelytieteiden laitos. A-2003-4 Acta Electronica Universitatis Tazoom
Näytä kaikki tuotetiedot
ISBN:
9789514458187
Sisäänkirjautuminen
Kirjaudu sisään
Rekisteröityminen
Oma tili
Omat tiedot
Omat tilaukset
Omat laskut
Lisätietoja
Asiakaspalvelu
Tietoa verkkokaupasta
Toimitusehdot
Tietosuojaseloste