| Nimeke: | Semantic Classes in Topic Detection and Tracking |
| Muu nimeke: | Semanttisten luokkien soveltaminen automaattisessa uutisseurannassa |
| Tekijä: | Makkonen, Juha |
| Muu tekijä: | Helsingin yliopisto, matemaattis-luonnontieteellinen tiedekunta, tietojenkäsittelytieteen laitos Helsingfors universitet, matematisk-naturvetenskapliga fakulteten, institutionen för datavetenskap University of Helsinki, Faculty of Science, Department of Computer Science |
| Päiväys: | 2009-11-13 |
| Taso: | Väitöskirja (monografia) |
| Tiivistelmä: | Automaattinen uutistapahtumien seuranta on tietojenkäsittelytieteen ja siinä tiedonhaun piiriin kuuluva tutkimusalue, jossa kehitetään menetelmiä digitaalisen uutisvirran hallintaan. Uutisvirta koostuu useista, mahdollisesti eri kielisistä uutislähteistä, joissa voi olla digitaalisia online-uutisia ja radio- sekä televisiouutisia. Alueen tutkimusongelmat koostuvat uusien, aikaisemmin uutisoimattomien uutistapahtumien havaitsemisesta, tunnistettujen uutistapahtumien kehityksen seuraamisesta ja uutisten ryhmittelystä sisällön perusteella sekä uutisvirran pilkkomisesta uutisjutuiksi. Tässä työssä keskitytään kahteen ensimmäiseen tutkimusongelmaan.
Perinteiset tiedonhakumenetelmät, jotka ovat edelleen internet-tiedonhakujärjestelmien perustana, vertailevat tekstidokumentteja joukkoina sanoja ja käsittelevät sanoja yksinkertaisina merkkijonoja, mikä mahdollistaa nopeat hakuajat ja kohtuullisen hyvä tulokset mutta kadottaa sanojen merkitykset. Perinteiset menetelmät eivät ole kuitenkaan toimineet erityisen hyvin tapahtumapohjaisessa uutisseurannassa. Erityisen vaikeaa on ollut tunnistaa kaksi samantyyppistä uutistapahtumaa, esim. kaksi lento-onnettomuutta, eri tapahtumiksi, koska niiden uutisointi sisältää pitkälti samoja sanoja. Tässä työssä etsitään uusia tapoja kuvata ja vertailla uutisia. Ensinnäkin sanat ryhmitellään merkitystensä mukaan joukoiksi samankaltaisia sanoja eli semanttisiksi luokiksi. Työssä käytetään semanttisia luokkia kuten yleiset sanat, organisaatiot, henkilöt, paikanilmaukset ja ajanilmaukset, jotka karkeasti ottaen vastaavat kysymyksiin mitä, kuka, milloin ja missä. Jokaisen luokan sisällä sanoja voidaan vertailla hieman eri tavoin, ja niinpä paikanilmausten kohdalla voidaan kaksi eri kaupunkia tai maata huomata maantieteellisesti läheisiksi tai organisaatioiden nimien kohdalla tunnistaa kaksi nimeä viittaavan samaan organisaatioon. Semanttisen luokan taustalle voidaan kytkeä sanojen taksonomia tai jokin muu rakenne, jonka kautta voidaan selvittää luokan sanojen välinen suhde. Lisäksi tekstistä tunnistetaan ajanilmaukset (esim. 'eilen', 'kaksi vuotta sitten helmikuussa') ja teksti ankkuroidaan niiden avulla aika-akselille. Tällöin tunnistetaan eri uutistapahtumista puhuttaessa samaa sanaa, esim. 'lento-onnettomuus', käytetään eri aikayhteydessä. Uutisia verrataan semanttinen luokka kerrallaan, ja tunnistaminen nojaa näiden erilaisten luokkakohtaisten tulosten yhdistelmään. Näin kaksi lento-onnettomuusuutista voivat olla samanlaisia yleisten sanojen suhteen mutta erilaisia paikkojen ja ajanilmausten suhteen, koska ne tapahtuvat eri paikoissa eri aikaan. Uutistapahtumia on monenlaisia, eikä todellisuus tai siitä kertovat uutiset taivu täysin kauniisiin malleihin. Tutkimustuloksissa kuitenkin semanttisten luokkien käyttö parantaa tuntuvasti uutistapahtumien seurannan tarkkuutta verrattuna perinteiseen lähestymistapaan -- uusien tapahtumien tunnistamista hieman vähemmän. |
| Avainsanat: | tietojenkäsittelytiede |
| Näytä kaikki kuvailutiedot | |