Näin sinäkin koulutat tietämättäsi tekoälyä

Jos data on öljyä, me ihmiset olemme jalostamoja.

tekoäly
Kuvitus
Seppo Suvela / Yle

Käynnissä on maailmanlaajuinen tekoälybuumi. Koneoppineet algoritmit helpottavat elämäämme perkaamalla roskaposteja, neuvomalla nopeimman reitin vieraaseen osoitteeseen tai suosittelemalla mieluista katseltavaa videopalvelussa. Tekoäly löytää kasvaimia ja tekee lainapäätöksiä. Tulevaisuudessa itseoppineet robotit ohjaavat meidän autoja ja simultaanitulkkaavat ravintolatilauksemme ulkomailla.

Kaikki tämä mahdollista datan ansiosta. Koko tekoälykehitys perustuu siihen, että koneille on riittänyt dataa pureskeltavaksi. Teknologiatapahtumissa on vuosien ajan toisteltu fraasia data on uusi öljy.

Öljyn tavoin myös dataa pitää jalostaa ennen kuin sitä voidaan syöttää koneeseen. Algoritmit eivät kykene oppimaan datasta toistuvuuksia, jos aineistoa ei ole lajiteltu opetuskäyttöön. Ja tähän työlääseen prosessiin myös sinä olet osallistunut, ehkä tietämättäsi.

En ole robotti, mutta voin vilkaista

Yleisin tapa osallistua tekoälyn kouluttamiseen on täyttää useilta verkkosivuilta löytyvä CAPTCHA-varmenne. Vuonna 2007 julkaistu varmistustapa sai nimensä kirjainlyhenteestä Completely Automated Public Turing test to tell Computers and Humans Apart. Eli kyseessä on täysin automatisoitu Turingin koe, jonka tarkoitus on erottaa tietokoneet ja ihmiset toisistaan.

Tämän voi toteuttaa usealla eri tavalla.

Kuvitus
Seppo Suvela / Yle

Kymmenisen vuotta sitten meidän piti tulkita kiemurtelevia sanoja ja kirjainpötköjä. Tämä koulutti Googlen – joka oli juuri ostanut CAPTCHA-varmenteen kehittäneen yhtiön itselleen – kirjaintentunnistus-tekoälyä. Ihmisten tavatessa suttuisia sanoja Googlen tekoäly oppi tunnistamaan kirjaimia ja pian se kykeni tunnistamaan epäselvää tekstiä ihmistä paremmin. Tämän tekoälyn avulla Google on digitalisoinut Books-palveluunsa kymmeniä miljoonia teoksia, joista voi tehdä hakuja.

Vuonna 2012 tekoälyä ei enää tarvinnut opettaa tunnistamaan kirjaimia, joten CAPTCHA-varmenteet muuttuivat kuviksi talojen seinistä. Nyt ihmisten piti lukea kuvista talojen numeroita ja kertoa ne koneelle. Tämä kehitti Googlen karttapalveluiden osoitehakua.

Kuvitus
Seppo Suvela / Yle

Nykyään CAPTCHA-kuvista pitää löytää esimerkiksi liikennemerkkejä, puita tai ajoneuvoja. Nyt me siis koulutamme Googlen Waymo-robottiautoja pysymään tiellä. Kun kuvissa alkaa näkyä sotilaita ja sota-aluksia, kannattaa miettiä kuinka kovasti haluaa koneelle ihmisyyttään todistaa.

CAPTCHA-varmenteen ensisijainen tehtävä on estää botteja pääsemästä sivustoille spämmäämään ja keräämään tietoja, mutta suurin hyöty siitä on Googlelle, joka sen avulla saa lajiteluteltua valtavat datamäärät hyödyllisiksi opetuspaketeiksi.

Kaiken takana ihminen

CAPTCHA:n kaltainen naamioitu joukkoistaminen on nerokas tapa opettaa koneelle toistuvuuksia, mutta kaikkea dataa ei sen avulla voida kätevästi lajitella.

Tähän tarpeeseen on vastannut toinen Piilaakson jättiläinen, Amazon. Sen Mechanical Turk -palvelussa ihmiset voivat muutaman sentin korvausta vastaan ratkoa pieniä tehtäviä, jotka ovat vielä toistaiseksi koneelle liian hankalia. Tällaisia tehtäviä ovat esimerkiksi epäselvistä kuvista numeroiden tulkitseminen tai tekstin äänensävyn määrittely.

Tätä kutsutaan mikrotyöksi ja se hyvin osoittaa, että jokaisen tekoälyn taustalta löytyy ihminen. Mutta toisin kuin CAPTCHA-varmenteen läpäisevä ihminen, Amazonille tai muulle vastaavalle mikrotyön tarjoajalle työskentelevä ihminen tekee päätöksensä tietoisesti.

Amazonin palvelu on saanut nimensä 1700-luvulla maailmaa kiertäneestä shakkikoneesta, joka voitti taitavampiakin pelaajia. Turkkilaiseksi kutsuttu kone ei kuitenkaan ollut maailman ensimmäinen tekoäly, vaan sen sisuksista löytyi ihminen, joka teki siirrot.

Hyväksymällä ehdot päädyt kouluttamaan tekoälyä

Vielä parikymmentä vuotta sitten tekoälyjen tarvitseman datamäärän kerääminen olisi ollut lähes mahdotonta. Nyt internetin ja sosiaalisen median aikana dataa on enemmän kuin tarpeeksi.

Esimerkiksi Facebookilla ei ole ollut pulaa kasvokuvista, kun se on kehittänyt omaa kasvojentunnistusjärjestelmää, joka automaattisesti tunnistaa kasvot ja merkitsee henkilöt kuviin.

Kun Googlen alkoi kehittää kolmiulotteisesti tiloja hahmottavaa syvyyskameraansa, se tarvitsi algoritmeilleen dataa, josta kone voisi oppia ymmärtämään syvyysulottuvuutta.

Internetissä oli juuri noussut viraalihitiksi mannekiinihaaste (siirryt toiseen palveluun), jossa ihmiset jähmettyivät paikalleen ja heistä kuvattiin videoita. Google latasi Youtube-sivustoltaan pari tuhatta haastevideoita ja näytti ne tekoälylleen. Kone oppi hetkessä hahmottamaan tilan syvyyksiä.

Tämä ei tietenkään tule yllätyksenä kenellekään, joka on joskus lukenut jonkun internetsivuston käyttäjäehdot. Ne sallivat tämänkaltaisen toiminnan.

Miljoonan kasvon tietokanta

Kuvitus
Seppo Suvela / Yle

Monelle kuvapalvelu Flickrin käyttäjälle tämä kuitenkin tuli yllätyksenä, kun teknologiayhtiö IBM julkaisi miljoonasta kasvokuvasta koostuvan tietokannan tekoälyn kehittämiseen. Kasvot yhtiö oli kerännyt Flickristä, mikä herätti kysymyksiä käyttäjien yksityisyydensuojasta.

Kuten Facebookin tai Googlen tapauksissa myöskään Flickrin käyttäjät eivät saaneet tietoa päätymisestään tekoälyn koulutukseen.

IBM:n tapausta tutkinut NBC News selvitti, että kasvojentunnistuksen harjoitusdatassa oli paljon kuvia ihmisistä, joilla ei ollut tietoa päätymisestään tietokantaan. Teknisesti ottaen kuvien lataaminen tutkimuskäyttöön ei ollut kiellettyä, sillä palvelun käyttöehdot sallivat tämän. Silti henkilökohtaisten kuvien päätyminen tekoälyn koulutusmateriaaliin ilman erillistä lupaa tuntui monesta kyseenalaiselta.

IBM on ilmoittanut, että pyydettäessä se on valmis poistamaan henkilön kuvat harjoitusdatasta, mutta NBC Newsin selvityksen mukaan tämä ei ole aina onnistunut. Lisäksi jo muualle ladatuissa tietokannoissa kuvat säilyvät. NBC News teki koneen, jolla voi tarkistaa löytyykö IBM:n harjoitusdatasta kuvia omalta Flickr-tililtä.

Data ei ole enää vapaata riistaa

Vuosien ajan tutkijat tottuivat kokoamaan tietokantoja internetiin ladatusta materiaalista ilman sen kummempia rajoitteita. Jos tutkija tarvitsi kasvokuvia, hän keräsi niitä Facebook-profiileista tai Youtube-videoista.

Näin meneteltiin esimerkiksi vuonna 2007, kun Massachusettsin yliopiston tietojenkäsittelyn professori Erik Learned-Miller loi kollegoidensa kanssa yli 13 000 kuvasta muodostuvan tietokannan nimeltä Labeled Faces in the Wild. Tietokannasta tuli nopeasti tärkein työkalu kasvojentunnistuksen parissa työskenteleville tutkijoille ympäri maailman. Sitä ovat käyttäneet niin Facebook, Google kuin kiinalainen Tencent omassa kehitystyössään.

Käytännöt ovat kuitenkin kiristymässä. Euroopassa tietosuoja-asetus GDPR antaa lisätukea ihmisille, jotka haluavat esimerkiksi omat valokuvansa pois koulutusdatapaketeista. GDPR laskee kuvat henkilökohtaiseksi tiedoksi, joka pitää poistaa tietokannoista pyydettäessä.

GDPR ei kuitenkaan suojele kaikkia, eikä se pitkällä tähtäimellä ole ratkaisu ongelmaan. Sen sijaan tutkijat ovat ehdottaneet koko alaa koskevien standardien luomista. Läpinäkyvyyden nimissä yhtiöiden pitäisi julkaista tiedot siitä, miten tekoälyn koulutusdata on kerätty ja minkälaisia rajoituksia tietokanta asettaa esimerkiksi eri ihmisryhmien tunnistamiseen.

Kuten öljyteollisuus myös datateollisuus kaipaa sääntelyä.

Jutun kommentointimahdollisuus on auki klo 22.00 saakka.

Lue myös:

Tietosuoja-asetus kiristää datan käyttöä – Tuleeko Euroopasta tekoälyn takapajula?

Kun lentomatkustaja pahoinpideltiin, oliko syy tietokoneohjelmissa? Algoritmit tekevät myös huonoja päätöksiä puolestamme