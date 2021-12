Kieliteknologian kehittämisessä on jo vuosia tavoiteltu kömpelön kääntämisen sijaan kieltä ymmärtäviä tekoälysovelluksia. Suomen kieli on ollut perinteisesti koneille vaikea pala purtavaksi.

Turussa on opetettu tietokoneelle suomea jo vuodesta 2009. Puhutaan luonnollisen kielen käsittelystä, eli Natural Language Processing – NLP.

Google on kehittänyt monikielisen, myös suomeksi toimivan BERT-kielimallin, mutta oma suomenkielinen malli puuttui. Se on yksi kieliteknologian peruspalikoista.

Alkusysäys koneellisen suomen kielimallin luomiseen tuli Filip Ginteriltä, joka oli muuttaanut Tšekeistä Suomeen. Työ on jatkunut vuosia.

– FinBERT:iä koulutettiin erilaisilla teksteillä, arviolta yli kolmella miljardilla sanalla. Ne ovat peräisin internetistä, esimerkiksi keskustelupalstoilta ja muista lähteistä. Myös kansalliskirjaston tekstejä on käytetty tekoälyn oppimateriaalina, Ginter kertoo.

– Monessa tehtävässä kone on yhtä hyvä kuin ihminen. Kone ei tee virheitä sen enempää kuin ihminenkään, mutta ne ovat erilaisia. Ihminen usein ymmärtää väärin, mutta kone voi tehdä hassuja virheitä, joita ihminen ei koskaan tekisi.

Murteiden ja puhekielen harjoittelu jatkuu

Tutkijat haluavat laajentaa ja kehittää suomenkielistä tekoälyä. Professori Veronika Laippalan mukaan normaalin uutiskielen tasoinen teksti on jo hyvin hallussa, mutta puhekielessä ja murteissa riittää haastetta.

– Tällä hetkellä koulutamme generoivaa kielimallia, siis sellaista, joka pystyy itse tuottamaan tekstiä. Siihen on jo hyvät lähtökohdat, Veronika Laippala sanoo.

Kattavampaan kielimalliin tarvitaan jopa kymmeniä miljardeja sanoja. Se on huomattavasti enemmän kuin ihminen lukee tai kuulee elämänsä aikana. Tiedonkäsittelyn määrä on valtava.

– Monikansalliset yritykset tekevät malleja, jotka ymmärtävät suomen kieltä, mutta suomi on niin pieni alue, ettei siihen panosteta täysillä. Eli jos me haluamme hyvin toimivaa kieliteknologiaa ja tekoälyä, joka ymmärtää suomen kieltä, se pitää tehdä itse, Veronika Laippala perustelee.

TurkuNLP on kehittänyt runsaasti kielen perusteknologiaa avoimeen käyttöön. Myös FinBERT on vapaasti internetissä saatavilla, ja käyttäjiäkin jo löytyy.

– Esimerkiksi on firmoja, jotka kehittävät kieliprosessointia omilla dokumenteilla. Kuka tahansa voi rakentaa kehittämämme mallin päälle mitä itse haluaa, Filip Ginter sanoo.

Ymmärrys on lisääntynyt ja satukin syntyy

Nimientunnistamista varten tekoälyä on koulutettu merkitsemällä noin 10 000 lauseeseen erisnimet.

Turussa on kehitetty myös kielen jäsentämistä osaavaa teknologiaa. Käsin merkityt sanaluokat, sanojen riippuvuudet, kuten verbien subjektit ja objektit on siirretty koneen “ymmärrykseen” ja se voi analysoida kieltä.

Tekoälyn luovuutta kielenkäytössä on yksinkertaisimmillaan, että kone osaa lisätä lauseesta puuttuvan sanan.

Jos annetussa lauseessa aiheena on vaikkapa pääsiäinen, tekoäly tietää, että "...sen viettoon liittyy paljon perinteitä". Joulun ollessa ajankohta, kone kirjoittaa: "...sen viettoon liittyy paljon lahjoja".

Ensimmäisen lause on annettu: Olipa kerran, kauan kauan sitten, kaukaisessa kuningaskunnassa pieni sininen prinsessa, joka asui suuressa sinisessä linnassa. Eräänä päivänä...

Lopputulos vaikuttaa ihmisen tekemältä sadulta, vaikka kysymys on automaattisesti sanoja täydentävästä järjestelmästä, joka toimii sen mukaan, mitä tietovarastoon on tallentunut.

Kieliteknologian vaarana tehokas mielipiteenmuokkaus

Kielimalliin siirtyy myös asenteita ja arvostuksia, joiden alkuperää on vaikea jäljittää. Näitä alustoja voidaan käyttää myös tarkoitushakuisesti.

Tämä sisältää professori Tapio Salakosken mukaan myös riskejä, jotka on hyvä tiedostaa.

– Ihmisiä, yrityksiä, valtakuntia ja kansakuntia voidaan manipuloida. Se on hyvin voimakas informaatiovaikuttamisen väline. Sen takia olisi erittäin tärkeää, että ihmiset ymmärtäisivät mistä on kysymys, ettei heitä vietäisi kuin pässiä narussa, Salakoski sanoo.

– Teknologian kyky manipuloida maailmaa tuottamalla sinne mielipiteitä ja tekstejä halutulla tavalla on pelottavaa, pohtii Salakoski.

Sieltä mistä koulutusmateriaalikin on peräisin, eli koneeseen syötetystä kielestä – ihmisiltä siis.

– Kun luetaan vaikka kaikki mitä ikinä on kirjoitettu, opitaan kaikki mitä on sanottu. Jos ihmisen kirjoituksissa ja ajatuksissa on esimerkiksi rasistisia etnisiin tai sukupuolivähemmistöihin kohdistuvia ennakkoluuloja, nekin siirtyvät, sanoo Tapio Salakoski.