SULJE VALIKKO

avaa valikko

"Merkkijonoista suomen kielen sanoiksi Acta Universitatis Tamperensis ; 763 Acta Electronica Universitatis Tamperensis ; 51"
16,20 €
Tampere University Press. TUP
Sivumäärä: 29598 sivua
Julkaisuvuosi: 2000 (lisätietoa)
Kieli: Suomi

Suurten tekstiaineistojen tallentaminen ja arkistoiminen elektronisesti on tullut yhä edullisemmaksi. Samalla perinteiset tekstin tallennus- ja hakumenetelmät ovat alkaneet jäädä tehottomiksi.

Tallennus- ja hakutulosten voidaan olettaa paranevan, kun käytetään menetelmiä, jotka ottavat kunkin kielen erityisominaisuudet huomioon. Tutkimuksessa selvitettiin, miten suomen kielen morfologisten tulkintaohjelmien eli sanoja tunnistavien ja muokkaavien tietokoneohjelmien avulla voidaan ratkaista ongelmia, jotka johtuvat suomen kielen erityispiirteistä. Morfologisten tulkintaohjelmien avulla voidaan muun muassa toteuttaa hakujärjestelmä, jossa otetaan huomioon suomen sanojen taipuminen ja jaetaan yhdyssanat osiinsa.

Tutkimus oli luonteeltaan laboratorioympäristössä toteutettu evaluointitutkimus. Siinä rakennettiin erityinen testausympäristö, jossa samasta tekstiaineistosta tuotettiin joukko erilaisia tietokantoja. Aineistona oli otos suomalaisesta sanomalehtiarkistosta.

Kun hakujärjestelmän hakemistoon tallennettavat sanat normalisoitiin eli kaikki taivutusmuotoiset sanat palautettiin perusmuotoonsa, ts. sanakirjamuotoon (esimerkiksi: kaupoissa -> kauppa), hakemisto tarvitsi vähemmän tietokoneen muistitilaa kuin vastaava, normalisoimaton hakemisto.

Kun tekstin sanat morfologisilla tulkintaohjelmilla palautettiin perusmuotoon ja perusmuodot tallennettiin hakemistoon, tiedonhakujen tulokset olivat tarkempia kuin silloin, kun sanoja ei ollut perusmuotoistettu. Toisaalta havaittiin, että on tärkeää hakea myös perusmuotojen rinnakkaisilmaukset, kuten johdokset (vero -> verottaminen, verotus) ja yhdyssanat (vero -> autovero), jotta olennaista tietoa ei jäisi löytymättä.

Tutkimuksen perusteella sanojen perusmuotoistaminen kannattaa, koska perusmuotohakemistosta tehtyjen tiedonhakujen tulokset ovat yhtä hyvät tai paremmatkin kuin silloin, kun tulkintaohjelmia ei ole käytetty. Hakemista helpottaa, ettei hakijan tarvitse välittää sanojen taipumisesta. Toisaalta sanojen perusmuotoistaminen tekee mahdolliseksi hyödyntää uusia tallennus- ja hakumenetelmiä, joita on kehitetty muissa kielissä, joissa sanojen taipuminen ja yhdyssanojen esiintyminen on vähäisempää kuin suomessa.



Loppuunmyyty
Myymäläsaatavuus
Helsinki
Tapiola
Turku
Tampere
"Merkkijonoista suomen kielen sanoiksi Acta Universitatis Tamperensis ; 763 Acta Electronica Universitatis Tamperensis ; 51"zoom
Näytä kaikki tuotetiedot
ISBN:
9789514448850
Sisäänkirjautuminen
Kirjaudu sisään
Rekisteröityminen
Oma tili
Omat tiedot
Omat tilaukset
Omat laskut
Lisätietoja
Asiakaspalvelu
Tietoa verkkokaupasta
Toimitusehdot
Tietosuojaseloste