Hyppää pääsisältöön

Google kiinnostui tutkijoiden projektista - tallentavat suomenkielisen internetin

Turkulaistutkijat ovat aloittaneet mittavan projektin: heidän päämääränsä on tallentaa koko suomenkielinen internet ja luokitella kaikki sanat omiin lokeroihinsa.

Tietokone // Kuva: EPA/ROLEX DELA PENA

Turkulaistutkijat aikovat luokitella koko suomenkielisen internetin. Tarkoitus on luoda tutkijoille lähes rajaton kieliaineisto. Hullua, mutta mahdollista, ajattelivat kielitieteilijä Veronika Laippala ja informaatioteknologian tutkija Filip Ginter. He päättivät tallentaa tiettynä ajankohtana koko suomenkielisen internetin, luokitella tekstit ja antaa sen tutkijoille vapaaseen käyttöön. Asiasta kertoo Yle Uutiset.

Tähän mennessä suomenkielisestä internetistä on puhdistettu ja luokiteltu 1,5 miljardia sanaa. Tutkijat aikovat puhdistaa kaikki tekstit siisteihin verbi- ja subjektipinoihin.Tallennuksessa käytettiin apuna yhdysvaltalaista voittoa tavoittelematonta järjestöä Common Crawlia, joka tallentaa aika ajoin koko internetin sisällön.

Laippala ei ole aivan varma, milloin heidän Common Crawlilta saamansa aineisto on tallennettu, mutta viime vuotta vanhempaa se ei missään nimessä ole. Yhdysvaltalaistallenteen lisäksi kaksikko aikoo varmuuden vuoksi käydä läpi myös kaikki .fi-loppuiset nettisivut. Aivan kaikkeen aineistoon tutkijat eivät pääse käsiksi. Esimerkiksi Helsingin Sanomien maksumuurin takana olevat osat jäävät tarkastelun ulkopuolelle.

Tutkijat saivat projektilleen kolmen vuoden rahoituksen Koneen säätiöltä. Tähän mennessä kaksikko on tutkimusryhmän avulla kiskonut internetin syövereistä 1,5 miljardia sanaa. Käsipelillä hommaa ei sentään tehdä. Jäsennyksen hoitavat tietokoneet.

– Koko aineistoon tulee tiedot siitä, mikä on subjekti, mikä verbi, kuka tekee, mitä ja missä.

Laippalan mukaan aineisto on vielä toistaiseksi niin jäsentämätön, ettei ihminen pysty käsittelemään sitä ilman tietokoneen apua.

Tutkijat suunnittelevat aineiston luokittelemista myös sisällön perusteella. Toistaiseksi nettikaupat, uutissivustot ja virastojen ohjeet ovat vielä iloisesti sikin sokin.

Tallennusprojekti kiinnostaa myös internetin jättiläistä

Tulevaisuudessa aineistoa voidaan soveltaa sekä tutkimuksessa että tuotekehityksessä. Esimerkiksi vielä toistaiseksi kankealla suomella pelaavaa käännösohjelmaa ylläpitävä Google on ollut kiinnostunut kaksikon projektista.

– Filip on tehnyt yhteistyötä Googlen tutkijoiden kanssa syntaktisen jäsennyksen pohjalta. Syntaktiseen jäsennykseen perustuva käännösohjelma tuottaa automaattisesti virkkeeseen sen, kuka tekee, mitä ja missä.

Osa tutkijaryhmästä on Turun yliopiston informaatioteknologian laitokselta. He ovat jo käyttäneet aineistoa kieliteknologian sovelluksiin.

– He ovat tutkineet sanojen merkitystä niiden käyttöyhteyden perusteella. On aika vaikuttavaa, mitä aineistosta sitä kautta nousee. Jos esimerkiksi etsitään sanaa puilla, tietokone huomaa, että samassa yhteydessä on käytetty vaikka sanoja tuulienergialla ja sähköllä. Tai että mikä on vaikka tyypillisin tekijä verbille lukea. Kone pystyy huomaamaan, että vaikka Jaska on yleensä se, joka lukee.

Tallennettu netti venyttää tutkimuksen rajoja

Laippalan mukaan tulevaisuudessa olisi mahdollista myös tarjota aineisto kokonaan kielitieteilijöiden käyttöön. Kielitieteen ongelma on kautta alan historian ollut se, että aineiston keräämiseen on saattanut mennä vuosia. Pienten alakulttuurien kielen, harvinaisten ilmaisujen ja erilaisten keskustelujen tutkiminen on tähän asti ollut lähes mahdotonta.

– Olemassa olevat kieliaineistot käsittelevät usein vain jotain tiettyä tekstilajia, kuten uutisia tai blogeja. Ajattelimme, että olisi kiva tehdä aineisto, jossa olisi mahdollisimman monen näköistä tekstiä. Tällaisesta aineistosta pystyy löytämään harvinaisia rakenteita, joita ei pienemmistä aineistoista pysty edes tutkimaan.

Tallennetusta internetistä löytyy myös aineistoa, jota kielitieteen tutkijat eivät vielä ole ehtineet edes raapaista. Laippala mainitsee esimerkkinä uutisiin liittyvät keskustelut.

Laippala uskoo, että aineisto piristää kielitiedettä, koska se antaa mahdollisuuden uusien asioiden tutkimiseen. Laippalan puolesta aivan kaikki tutkijat saisivat käyttää aineistoa.

– Joitain rajoituksia on olemassa, mutta teemme parhaamme, että aineisto tulisi mahdollisimman monien käyttöön.

Laippalan mukaan työ ei ole ohi vielä sittenkään, kun koko tallennettu internet on purettu siisteihin verbi- ja subjektipinoihin.

– Voi olla, että teemme tämän saman heti uudestaan. Kieli kuitenkin uudistuu koko ajan.

Lähteet: Yle Uutiset