Miljardien twiittien arkiston haku ei toimi

Yhdysvaltojen kongressin kirjasto arkistoi kaikki Twitter-viestit. Hakupalvelun hitaus tekee tietokannasta kuitenkin lähes käyttökelvottoman.

Ulkomaat

Yhdysvaltojen kongressin kirjasto painii informaatioajan ongelman kanssa. Kirjasto ryhtyi keväällä 2010 arkistoimaan Twitter-viestejä. Nyt arkistoon on saatu tallennettua kaikki vuonna 2006 perustetun mikroblogipalvelun viestit, ja lisää kertyy 400 miljoonaa päivässä.

Kongressin kirjaston mukaan hankkeen tarkoituksena on kerätä tietoa amerikkalaisesta kulttuurista tutkimuskäyttöä varten. Twitterillä on yli 200 miljoonaa käyttäjää, joista suuri osa on amerikkalaisia.

Arkiston koko on kuitenkin ongelma. Viestejä on 170 miljardia, eikä arkiston kerätäkseen ja hoitaakseen ottanut Gnip-yhtiö ole kyennyt luomaan toimivaa hakujärjestelmää. Pelkkä palvelun neljän ensimmäisen vuoden 20 miljardia viestiä läpi käyvä haku voi kestää vuorokauden. Niinpä tutkijoita ei ole päästetty aineiston kimppuun, vaikka pyyntöjä on tullut jo 400 kappaletta tieteilijöiltä maailman eri kolkista.

Hiljattain julkaistussa selvityksessä kirjasto totesi, että kalliin hankkeen tilanne on hankala. Suurten tietomassojen hakuteknologia on jäänyt niiden luomiseen käytettävistä menetelmistä jälkeen, selvityksessä pahoitellaan.

Lähteet: AFP