Helsingin yliopiston kirjasto, Suomen kansalliskirjasto
kansi   lukijalle   esipuhe   kirjoittajat   galleria


Kirja  tietoverkkojen maailmassa

 «

    aihepiirit    

  I  

  II  

  III  

  IV  

  V  

  VI  

» 
Keruun aakkoset


Internetin pitkät varjot
1 Verkon haravoinnin lyhyt historia
2 Harava virtuaalilehdille ja muulle verkkoaineistolle
3 Keruun aakkoset
4 Haravoidun aineiston haku
5 Tulevaisuuden näkymiä
* Lisää aiheesta verkossa
tulosta Tulostettava versio
Verkkoa arkistoitaessa haravan annetaan koota mahdollisimman kattavasti jossakin maassa julkistettu aineisto. Yksinkertaisimmillaan haravan annetaan koota kaikki aineisto omasta maa-domainista, esimerkiksi Suomessa *.*.fi:stä ja Ruotsissa *.*.se:stä. Tästä voidaan jatkaa kokoamalla Internet-nimipalvelujen ylläpitäjiltä tai muulla tavoin tiedot suomalaisten organisaatioiden ylläpitämistä *.*.com, *.*.org, *.*.net jne. palvelimista. Esimerkiksi Ruotsissa kootusta aineistosta vain noin 60 % on *.*.se-domainista, ja Suomessa tulokset ovat olleet samantapaisia. Valitettavasti emme ole saaneet kotimaisten palvelimien osoitteita suoraan nimipalvelujen ylläpitäjiltä tai domain-nimiä myyviltä firmoilta. Onneksi olemme saaneet yhteistyökumppaniksi suomalaisen tiedonhakuportaalia ylläpitävän yrityksen, jolta saimme kesällä 2003 aloitettavaa toista hakukierrosta varten noin 60.000 suomalaisen palvelimen osoitetiedot. Ilman tätä apua emme pystyisi keräämään etenkään muissa domaineissa kuin .fi:ssä olevaa aineistoa kovinkaan kattavasti.

Vaikeinta on löytää ulkomaisilla palvelimilla olevia yksittäisiä suomalaisia sivustoja. Meillä ei ole mitään arviota siitä, miten kattavasti nämä sivustot on saatu talteen, ja toivommekin että näiden palvelujen ylläpitäjät kertovat meille havaitsemistaan puutteista tai perustamistaan merkittävistä uusista sivustoista.

Jos dokumentissa on niin sanottuja inline-kuvia, ne kerätään aina arkistoon ja tallennetaan samaan pakettiin alkuperäisen dokumentin kanssa. Arkistoon voi siis päätyä myös ulkomaista materiaalia, jos suomalainen verkkosivu ei ole ”kokonainen” ilman sitä. Toisaalta osa kotimaisesta aineistosta voi olla alun perin oikeudettomasti verkkoon siirrettyä tai muuten sisällöltään laitonta. Jos ongelmia ilmenee, kansalliskirjastolla tulee olemaan mahdollisuus poistaa arkistossa oleva dokumentti yleisökäytöstä. Tutkimuksen tarpeita varten nämäkin aineiston kannattaa ainakin minun mielestäni säilyttää.

Keruuohjelmistoa voidaan tietenkin soveltaa paljon rajatummin (miksei myös laajemmin) kuin kansallisella tasolla. Periaatteessa mikä tahansa yliopisto tai ammattikorkeakoulu voisi käyttää haravaa omilla www-palvelimillaan olevien dokumenttien keruuseen ja tallennukseen. Näitä projekteja suunniteltaessa kannattaa kuitenkin miettiä tarvitaanko omaa arkistoa kun kansalliskirjasto tallentaa aineiston varsin kattavasti.

Dokumenttien keruuta voidaan haluttaessa tehostaa normaalikäytännöstä. NEDLIB-harava voidaan esimerkiksi opettaa olemaan välittämättä robots.txt-tiedostossa olevasta kiellosta kerätä dokumentteja www-palvelimelta tai jostakin sen hakemistosta. Tällöin on valmistauduttava kiukkuisten webmastereiden valituksiin siitä, että haravamme käyttäytyy huonosti. Ja suojatussa hakemistossa ei välttämättä todellakaan ole mitään merkittävää. Jos jokin palvelin tai hakemisto on suojattu käyttäjätunnuksella ja salasanalla, ne voidaan määritellä keruuohjelmaan. Tämä edellyttää sopimusta palvelimen ylläpitäjän tai julkaisijan kanssa.

Lopputuloksen kannalta merkittävää on myös se, miten haravointi ajoitetaan. Ruotsissa on kerätty kaikki aineisto tietyin väliajoin; näin saadaan otos verkon sisällöstä jonakin ajankohtana. Suomessa aineisto pyritään saamaan talteen pari kertaa vuodessa. Tämän menettelyn ongelma on se, että usein muuttuva aineisto, esimerkiksi verkkosanomalehdet, ei tule mukaan. Lisäksi erikoistilanteisiin kuten vaaleihin liittyviä erikoissivustoja kuten ehdokkaiden omia, usein hyvin lyhytikäisiä sivuja ei saada talteen. Näitä ongelmia voidaan lievittää keräämällä esimerkiksi lehtien sivut aina tarpeen mukaan, ja tekemällä esimerkiksi vaalien yhteydessä erikoispoimintoja. HYK keräsi keväällä 2003 eduskuntavaaleihin liittyvät sivut, joita saatiin talteen noin 15.000.

Haravoinnin kannalta pahin ongelma on niin sanottu deep Web; aineisto joka on tallennettu tietokantoihin ja joka rakennetaan dynaamisesti aina käyttäjän sitä pyytäessä. Nykyisillä tekniikoilla haravat eivät yllä tähän aineistoon. On vaikea arvioida miten suuri osa relevantista aineistosta jää saamatta, mutta todennäköisesti osuus on merkittävä. Toivottavasti joko haravoinnin tai tietokantojen tekniikka tai verkkojen käyttö kehittyy niin, että ongelma saadaan ratkaistuksi.


«  1  2  3  4  5  *  »
URN:NBN:fi-fe20031623