Tietosuoja-asetus kiristää datan käyttöä – Tuleeko Euroopasta tekoälyn takapajula?

EU:n tietosuoja-asetuksen vaikutukset tekoälyn kehittämiseen askarruttavat koneoppimisalalla. Jäävätkö eurooppalaiset tekoäly-yritykset muiden jalkoihin, kun datan käyttö pitää perustella tarkemmin.

tekoäly
Grafiikka
Laura Koivunen | Yle Uutisgrafiikka

Lainapäätöksiä, elokuvasuosituksia, reittiohjeita, syöpädiagnooseja, robottiautoja ja tietenkin kohdennettuja mainoksia. Valtaviin datamääriin perustuva koneoppiminen tarjoaa ratkaisuja alalla kuin alalla.

Markkinatutkimusyhtiö IDC ennusti keväällä, että tekoälyn ja koneoppimismenetelmien kehittämiseen käytetty rahasumma nousee seuraavan kolmen vuoden aikana 12 miljardista dollarista lähes 60 miljardiin dollariin. Samalla alan liikevaihdon odotetaan moninkertaistuvan.

Koneoppiminen on bisnes, josta ei kannata jäädä ulkopuolelle.

Euroopan unionin tietosuoja-asetus GDPR saattaa kuitenkin lyödä kapuloita eurooppalaisiin älyrattaisiin. Henkilötietojen käytön läpinäkyvyyttä edistävässä asetuksessa on useita vaatimuksia, joiden täyttäminen on joko vaikeaa tai jopa mahdotonta Euroopassa operoiville tekoäly-yrityksille.

Kaikkia mustia laatikoita ei saada auki

EU:n tietosuoja-asetus velvoittaa tietoja keräävät tahot pyydettäessä kertomaan "merkitykselliset tiedot käsittelyyn liittyvästä logiikasta [...] tiiviisti esitetyssä, läpinäkyvässä, helposti ymmärrettävässä ja saatavilla olevassa muodossa selkeällä ja yksinkertaisella kielellä".

Esimerkiksi työnhakijalla on oikeus saada tietää, millä perusteilla rekrytoinnissa auttanut tekoäly päätyi suosittelemaan toista hakijaa. Tämän tiedon kaivaminen tekoälyn synapseista ei aina ole helppoa.

– On kiinnostavaa, miten tätä ruvetaan tulkitsemaan. Se on selvää, että osa tällä hetkellä käytössä olevista menetelmistä on sellaisia, että ainakin yksityiskohtaisella tasolla on hyvin vaikea ymmärtää, mihin ne päätökset perustuvat, sanoo tilastotieteen apulaisprofessori Antti Honkela Helsingin yliopistosta.

Myös Suomen tekoälyn tutkimuskeskus FCAI:ssa toimiva Honkela muistuttaa, että nykytietokoneet pystyvät suorittamaan niin monimutkaisia asioita, ettei ihmisellä ole kykyä täysin niitä hahmottaa. Ei ainakaan helposti ymmärrettävässä muodossa.

Tämän lisäksi osa mustiin laatikoihin piilotetuista algoritmeista on liikesalaisuuksia tai viranomaistietoja. Kuinka paljon pankin pitää paljastaa lainapäätöksiä suoltavasta algoritmistaan tai viranomaisten rahapesun tunnistamiseen käytetystä tekoälystä?

Aika näyttää.

Grafiikka
Laura Koivunen | Yle Uutisgrafiikka

Dataa saa kerätä, kunhan osaa kysyä

EU:n tietosuoja-asetus ei suinkaan kiellä datan keräämistä ja käyttämistä. Ihmisille pitää vain aikaisempaa avoimemmin kertoa, mitä dataa ja mihin tarkoitukseen kerätään.

– Avointa valtakirjaa ei saa enää kysyä. Tähän asti isoilla internet-yhtiöillä on ollut malli, että kerätään kaikki mahdollinen data ja yritetään löytää sieltä jotain kiinnostavaa, Honkela kuvailee.

Tavallaan EU on nyt säätänyt datan keräämiselle päästörajat. Tuhlaileva datan käyttö on nyt historiaa Euroopassa.

Samalla kuitenkin muualla maailmassa isoruokaiset tekoälyt saavat vapaasti tuprutella datapilviä tiedon valtatiellä. Tämä on tietenkin kilpailuetu.

Piilaakson teknologiajätit voivat kotimarkkinoillaan kehittää palvelujaan välittämättä GDPR:stä. Kun palvelu on hiottu kuntoon, se voidaan räätälöidä Euroopan markkinoille.

– Ehkä jatkossa ainakin niitä ensimmäisiä malleja luodaan jollain muulla kuin eurooppalaisilta kerätyllä datalla. Eurooppalaiset saavat paremman yksityisyyden, mutta eivät välttämättä aina niin hyviä ensimmäisiä versioita palveluista, Honkela pohtii.

Tällaisesta kehityksestä on jo viitteitä. Tietosuoja-asetuksen siirtymäajan päättymisen kynnyksellä Facebook siirsi kaikki paitsi eurooppalaiset käyttäjänsä Yhdysvaltojen lainsäädännön piiriin, kun aiemmin kaikki Facebookin käyttäjät Yhdysvaltojen ja Kanadan ulkopuolella kuuluivat eurooppalaisen lainsäädännön piiriin.

Yhtiö on ilmoittanut (siirryt toiseen palveluun) soveltavansa EU:n tietosuoja-asetusta koko maailmassa. Facebookilla ei ole kaikista mairittelevin historia, kun tarkastellaan käyttäjien yksityisyyden suojelua. Mutta ainakin puheentasolla yhtiö on luvannut parantaa tapansa.

Aika näyttää.

Ei niin hullua ideaa, jota ei datalla voida toteuttaa

Datan merkitys koneoppimisessa on valtava. Ilman dataa ei ole koneoppimista.

Neuroverkot ja koneoppiminen ottivat mullistavan harppauksen vuonna 2012, kun tutkijat keksivät käyttää laskutoimituksiin tavallisesti tietokonepelien grafiikan tuottamiseen tarkoitettuja grafiikkaprosessoreja.

– Yhtäkkiä oltiin tilanteessa, jossa kukaan ei keksinyt niin hullua ideaa, jota ei voi olisi voinut toteuttaa, jos siihen vaan oli dataa, kuvailee signaalinkäsittelyn professori Joni Kämäräinen Tampereen teknillisestä yliopistosta.

Koneoppimisen kanssa 20 vuotta työskennellyt Kämäräinen katsoo, että algoritmien kehittyessä datasta on muodostunut tekoälyn pullonkaula. Tutkijat eivät enää kysy, onko ongelman ratkaisuun sopivaa menetelmää, vaan onko ongelman ratkaisemiseksi tarpeeksi dataa.

Grafiikka
Laura Koivunen | Yle Uutisgrafiikka

Data todellakin on uusi öljy. Siitä on tullut arvokasta, kun sitä on opittu paremmin jalostamaan.

Signaalinkäsittelyn professori toivoo, että datan käytön sääntelyä ja eettisiä rajoja pohdittaisiin nykyistä laajemmin. Tähän tarvitaan etiikan ja moraalin tutkijoita. Euroopan tietosuoja-asetus on hyvä alku.

Kämäräinen painottaa, että samalla datalla voidaan tehdä sekä hyviä että huonoja asioita. Datan avulla voidaan esimerkiksi ohjata riskiryhmässä olevia ihmisiä syöpäseulaan. Sama data vakuutusyhtiön hallussa saattaa kuitenkin nostaa riskiryhmäläisten vakuutusmaksuja.

– Tässä asiassa on aina kaksi puolta, eikä me voida valita vain sitä toista. Jos me haluamme hyvän, niin mukana tulee paha, Kämäräinen sanoo.

Perille pienemmällä datalla?

Datakriisiin varaudutaan jo. Esimerkiksi helsinkiläinen tekoäly-yritys Curious AI kehittää seuraavan aallon tekoälyä, joka datamassan sijaan oppii ensisijaisesti vuorovaikutuksesta ihmisten kanssa.

Vaikka tietosuoja-asetus ei tällä hetkellä vaikuta yhtiön toimintaan, se luo epätietoisuutta.

– Jos ajatellaan seuraavan aallon tekoälyä, joka esimerkiksi keskustelee ihmisten kanssa eikä välttämättä tallenna sitä dataa sellaisessa muodossa kuin mitä GDPR nyt olettaa, niin siitä voi tulla jotain haasteita, arvelee Curious AI:n toimitusjohtaja Harri Valpola.

Tekoälypomon mukaan EU-asetus ei ole varautunut uudenlaiseen tekoälyyn. GDPR on lainsäädäntö polttomoottoreille, kun kehitys on jo siirtymässä sähköautoihin.

Grafiikka
Laura Koivunen | Yle Uutisgrafiikka

Valpola pitää kuitenkin hyvänä asiana, että ihmisiltä kerätyn datan käyttöön kiinnitetään huomiota. Asetuksen epämääräisyys luo kuitenkin omat haasteensa tekoäly-yrityksille.

– Asetus on kirjoitettu sen verran ympäripyöreästi, että vasta oikeuden ennakkopäätösten jälkeen tiedetään, mitä se laintulkinta täsmälleen on, Valpola huomauttaa.

Aika näyttää.

GDPR myös pakottaa parempaan

EU:n tietosuoja-asetus ei kuitenkaan ole pelkkää myrkkyä tekoälyn kehittäjille. Kun säännöt ajan myötä selkiytyvät, ne helpottavat toimintaa.

Tietosuoja-asetus myös pakottaa yhtiöt kehittämään parempia toimintatapoja, mikä usein kantaa hedelmää myöhemmin. Curious AI:n kaltaiset tekoäly-yritykset hyötyvät, kun pienemmällä datalla pyörivät tekoälyt alkavat kiinnostaa laajemmin.

GDPR:n myötä ihmiset ovat tulleet tiedostavammiksi yksityisyydensuojastaan. Samalla vaatimukset vastuullisesta datan käytöstä lisääntyvät.

Tämä on hyvä apulaisprofessori Antti Honkelan kaltaisille tutkijoille, jotka kehittävät yksityisyystietoisia koneoppimismenetelmiä.

– Yksi mahdollisuus on, että jatkossa kehitetään entistä enemmän menetelmiä, jotka hyödyntävät dataa, joka pysyy käyttäjän hallussa. Kukaan ei näe koko dataa, eikä kukaan pääse käsiksi yksittäisen ihmisen dataan, Honkela kuvailee.

Kiinnostus tämän kaltaiseen koneoppimiseen on Honkelan mukaan kasvanut.

Aika näyttää.

Lue myös:

Neuroverkko katsoi kuvia julkkiksista ja alkoi luoda kasvoja, joita ei ole olemassa – Tunnustammeko koneen älyn vasta, kun se kykenee huijaamaan meitä?

Tekoäly on jo nyt uusi perheenjäsen – kodin virtuaalisydän paistaa kohta kinkut ja pyytää kaveria kaljalle

Kun lentomatkustaja pahoinpideltiin, oliko syy tietokoneohjelmissa? Algoritmit tekevät myös huonoja päätöksiä puolestamme

Paljon polemiikkia aiheuttaneen tietosuoja-asetuksen soveltaminen alkaa tänään – Onko se uhka vai mahdollisuus? Keräsimme 9 kohtaa