Hyppää pääsisältöön

Mitä sinun pitäisi tietää big datasta, datanlouhinnasta ja datafuusiosta?

Kuvituskuva Yle Tieteen big data -juttuun
Kuvituskuva Yle Tieteen big data -juttuun Kuva: Flickr The Commons/Yle datafuusio

Koska dataa tuotetaan ja kerätään lähes käsittämättömän paljon päivässä, kerättyä dataa kaivelemalla voidaan löytää yllättävää tietoa. Henkilötietojen onkimisen ja muiden hieman karmivien esimerkkien lisäksi massadatan avulla voidaan rakentaa esimerkiksi jalkapallokoosteita liukuhihnalta työstävä kone.

– Kaikki meidän laitteemme ovat nykyään digitaalisia, joten on oikeastaan helpompaa kerätä dataa kuin olla keräämättä, sanoo Helsingin yliopiston tietojenkäsittelytieteen professori ja tietoteknisen tutkimuskeskus HIIT:n johtaja Petri Myllymäki.

Dataa tuotetaan koko ajan, IBM:n mukaan päivittäin noin 2,5 triljoonaa tavua (triljoonassa on 18 nollaa). Yli 90 prosenttia kaikesta maailman datasta on peräisin viimeisen parin vuoden ajalta.

Esineiden internetiä tutkinut Kary Främling kertoo tuoreimman Aalto Magazinen haastattelussa, että hänen talonsa huolehtii itsestään ja asukkaistaan. Pienet anturit mittaavat esimerkiksi hiilidioksiditasoa ja kylpyhuoneen kosteutta. Anturien keräämän datan perusteella talo säätelee tasoja pitäen ne optimaalisena. Rakennukset ovat vain yksi esimerkki siitä, että dataa tullaan keräämään ja hyödyntämään tulevaisuudessa yhä enemmän.

Kun dataa kertyy itsestään, jälkeenpäin voidaan keksiä, mihin muuhun tätä kerättyä dataa voitaisiin hyödyntää. Tämä on Petri Myllymäen mukaan niin sanotun big data -ilmiön idea. Dataa kaivellaan tyypillisesti tietokonealgoritmeillä, ja prosessia kutsutaan datanlouhinnaksi. Datafuusiolla tarkoitetaan sitä, kun kahta tai useampaa datamassaa yhdistellään niin, että saadaan luotua uutta tietoa. Alla on muutama esimerkki siitä, mitä nämä termit käytännössä tarkoittavat.

Jalkapallokoosteista juuri sen mittaisia kuin haluat

Jos jalkapallokoosteen leikkaamisen voisi ulkoistaa tietokoneelle, Yle tai joku muu taho voisi tarjota katsojilleen palvelua, jonka kautta jokainen voisi ítse päättää, kuinka pitkän koosteen haluaa nähdä? Esimerkiksi 90 minuutin kooste jalkapallon EM-ottelusta tarkoittaisi käytännössä koko ottelua, 10 sekunnin pätkä ehkä ratkaisumaalia. Käsityönä tällaista palvelua tuskin toteuttaisi kukaan, koska siihen menisi liikaa aikaa. Vähän sama kuin jos ruokakaupan kassan täytyisi kantaa asiakkaan ostokset kotiin, vaikka kassalla olisi pitkä jono.

Koneoppimiseen parissa työskentelevä Petri Myllymäki on pohtinut huvikseen tätä ongelmaa jo aiempien jalkapallokisojen aikana. Kun jalkapallosta kiinnostunut ihminen rakentaa futiskoosteen, hän tunnistaa kiinnostavat kohdat videolta, kun taas koneelle mielenkiintoisten pelitilanteiden löytäminen kuvan perusteella on hankalaa.

Myllymäki ja hänen tutkimusryhmänsä jäsenet keksivät kiertotien. Tv:ssä lähetettävä jalkapallo-ottelu koostuu videosta ja äänestä, joka jakautuu stadionin äänimaisemaan ja selostajan puheeseen. Jos kone poimisi ääniraidasta kohdat, joissa äänenpainot nousevat, eli jolloin selostaja ja yleisö huutavat, todennäköisesti ainakin maalit ja läheltä piti -tilanteet tarttuisivat koosteeseen. Eli yksinkertaisesti poimittaisiin esimerkiksi Islannin ja Itävallan alkulohkokamppailun tallenteesta 37 kovaäänisintä minuuttia ja loput jätettäisiin pois.


Islantilaisselostaja Gudmundur Benediktsson hullaantui, kun Islanti voitti Itävallan viime hetkellä ja varmisti jatkopaikkansa vuoden 2016 EM-kisoissa (Yle Areena).


Ylen selostaja Niki Juuselan voimakkaita tunteita jalkapallon MM-kisojen puolivälierissä 2010. Videolta kuulee hyvin, miten äänentasot saattavat nousta kiinnostavilla hetkillä (Youtube).

Myllymäki kertoo, että eräs hänen kollegansa keksi vielä äänen analysointiakin helpomman ratkaisun ongelmaan. Futismatseja kommentoidaan Twitterissä paljon. Kun tviittien määrä tietyn ottelun hashtagilla lisääntyy, todennäköisesti jotain merkittävää tapahtuu. Esimerkiksi kun Turkki–Kroatia-pelin lähetyksessä kuului räjähdys, monet kyselivät Twitterissä, mitä oikein tapahtui.

Skip Twitter post



Monet jalkapallon EM-kisoja Twitterissä kommentoivat käyttävät hashtagia, joka muodostuu joukkueiden virallisista lyhenteistä, esim #TURCRO (Turkey–Croatia).
twitterissä kommentoidaan islannin voittomaalia livenä
Kun ylempänä videolla oleva Islannin voittomaali Itävaltaa vastaan syntyi, ihmiset reagoivat Twitterissä. Kaikki kuvassa näkyvät tviitit on julkaistu klo 20.51. twitterissä kommentoidaan islannin voittomaalia livenä Kuva: Twitter/Yle Twitter,tviitti

Kun poimitaan ottelun 37 tviitatuinta minuuttia ja otetaan kellonaikoja vastaavat kohdat ottelusta, saadaan ottelun parhaat palat Twitterin perusteella. Myllymäen mukaan olisi myös mahdollista analysoida, mitä ihmiset kirjoittavat Twitterissä. Näin saataisiin seulottua entistä varmemmin ottelun mielenkiintoisimmat tapahtumat.

Jalkapallokoosteita leikkaava kone on yksinkertainen esimerkki siitä, mitä eri datalähteitä yhdistämällä voidaan luoda.

Netflix ei ymmärtänyt julkaisevansa arkaluontoisia tietoja

Kun aivan eri tarkoituksiin kerättyjä datamassoja onnistutaan louhimaan, niistä voidaan löytää yllättäviä riippuvuuksia. Esimerkiksi vuonna 2006 yhdysvaltalainen suoratoistopalvelu Netflix käynnisti avoimen kilpailun, jossa joukkueiden tehtävänä oli parantaa elokuvien suosittelua Netflixin käyttäjille. Eli rakentaa kone, joka ymmärtää käyttäjän elokuvamaun.

Netflix laittoi lähes puolen miljoonan käyttäjän tekemät elokuva-arviot jakoon nimettöminä. Netflix oletti, ettei käyttäjiä voida tunnistaa ja kilpailu olisi harmiton, mutta toisin kävi. Teksasin yliopiston tutkijat vertailivat Netflixin kilpailua varten julkaisemaa datapakettia Internet Movie Databasen -sivuston käyttäjien julkisiin tietoihin. Tutkijat löysivät yhteyksiä Netflixin ja IMDb:n välillä ja osa Netiflix-käyttäjistä olisi voitu paljastaa.

Netflix joutui peruuttamaan suunnittelemansa toisen kilpailun. Ongelmana oli, että vaikka ihmiset arvioivat elokuvia IMDb:ssä julkisesti, Netflixin keräämät tiedot olivat yksityisiä. Ehkä joku käyttäjä on halunnut antaa elokuvamaustaan tietyn kuvan IMDb:ssä, mutta katsella ja arvostella salaa Netflixissä. Tämä kuvastaa sitä, miten salassa pidettävät, arkaluontoiset tiedotkin voivat paljastua, jos dataa yhdistellään taitavasti algoritmeillä.

Ajatustenlukua ja unien sieppaamista datafuusion avulla

Siitä, miten pitkälle datafuusion avulla voidaan tulevaisuudessa mennä, on saatu jo viitteitä. Lue Prisma Studion juttu japanilaisten tekemästä tutkimuksesta, miten unensieppaaja rakennetaan.

Myös Jyväskylän yliopiston tutkijat ovat tehneet hieman vastaavaa tutkimusta vuonna 2013. He tarkkailivat, mitä aivoissa tapahtuu, kun kuunnellaan musiikkia. Koehenkilöt kuuntelivat The Beatlesin Abbey Road -albumia, jonka musiikin muutokset rytmissä, sävellajissa ja sointivärissä saatiin analysoitua algoritmeillä. Kun nähtiin, miten aivot reagoivat tietyn tyyppiseen musiikkiin, voitiin tehdä sama käänteisesti ja tunnistaa aivotoiminnan perusteella, minkä tyyppistä musiikkia ihminen kuuntelee.

Vastaavaa aivotoiminnan tulkintaa on kokeiltu myös liikkuvalla kuvalla. Kalifornialaisessa Berkeleyn yliopistossa on onnistuttu tulkitsemaan videoita aivotoiminnan perusteella. Koehenkilöiden aivoja kuvattiin heidän katsoessaan Hollywood-elokuvien trailereita. Seuraavaksi samat henkilöt katsoivat eri trailereita ja jälleen heidän aivotoimintaansa mitattiin. Koneelle annettiin toisessa kokeessa vain mitatut aivokuvat, jonka perusteella se onnistui piirtämään kohtalaisen lähelle sen kuvan, jonka ihmiset kulloinkin näkivät. Berkeleyn kone siis löysi riippuvuuksia koehenkilöiden aivotoiminnan ja kuvan välillä.


Kalifornialaisen Berkeleyn yliopiston tutkija Jack Gallant kertoo heidän tekemästään aivotutkimuksesta (Youtube).

Kiinnostaako avoimen datan soveltaminen?

Pääkaupunkiseudun kaupunkeihin liittyvää dataa on avattu kaikkien hyödynnettäväksi. Helsinki Region Infoshare -sivustolta löytyy tietoaineistoja Helsingin geologisesti arvokkaista kohteista, Vantaan pyöräilytilastoista ja 543 muusta aiheesta. Ideana on, ettei kaupunkien keräämä data makaisi toimettomana, vaan ihmiset ideoisivat ja toteuttaisivat sen pohjalta hyödyllisiä sovelluksia. Alla on Helsingin kaupungin tietokeskuksen projektipäällikkö Tanja Lahden suosittelemia esimerkkejä siitä, millaisia juttuja HRI:n avoimen datan päälle on rakennettu.

Palvelukartta

Kaikki julkiset palvelut kouluista terveyskeskuksiin ja Kelan konttoreihin kartalla. Palvelukartta näyttää ja kertoo reitin kohteeseen, ja lisäksi käyttäjä voi valita, jos hän esimerkiksi käyttää rollaattoria tai on liikkeellä lastenrattaiden kanssa. Sovellus hyödyntää neljää eri HRI:n avointa tietolähdettä: pääkaupunkiseudun toimipisterekisteriä, Helsingin seudun liikenteen dataa, tapahtumarajapintaa ja palautejärjestelmää. Lisäksi karttasovellus on avoin kartta OpenStreetMap.

Blindsquare

Sokeille tarkoitettu GPS-sovellus, joka kertoo keinotekoisen puheen avulla tietoa ympäristöstä käyttäjälle. Käyttää osittain samoja tietoaineistoja kuin Palvelukartta, mutta myös yhteisöllisesti tuotettua paikkatietoaineistoa Foursquare-sovelluksesta.

Uusi Kannelmäki

Karttasovellus, johon on yhdistetty monia kartalle visualisoitavissa olevia tietoaineistoja, kuten liikennemääriä ja asuntojen hintoja. "– – digitaalinen kartta, jossa eri karttatasoja voi vertailla päällekäin helposti", kuvataan HRI:n sivuilla.

Helsinki ennen

Helsingin karttoja eri vuosikymmeniltä yhdistettynä Googlen selailtavaan katukuvaan ja Helsingin kaupunginmuseon kuviin, jotka on sijoitettu kartalle. Käyttäjä näkee kaupungin muutoksen keskenään vertailtavin kartoin ja kuvin.

Espoon energiatietopalvelu

Espoon kaupunkisuunnittelukeskuksen luoma palvelu, josta uusiutuvaa energiaa kotiinsa haluava voi katsoa, miten kannattavaa sen tuottaminen olisi omassa asunnossa. Karttapohjaisessa palvelussa on yhdistetty Espoon aurinkoenergia- ja geoenergiakartat.

Kuvalähteet: Smithsonian Institution, Mennonite Church USA ja Florida Memory

Päivitetty versio 24.6.2016 julkaistusta jutusta. Muun muassa otsikkoa ja jutun rakennetta muutettu.

  • Kesäpäivänseisaus - päivä jolloin maapallon ympärysmitta selvisi

    240 eaa tehtiin havainto: maapallo on pyöreä ja valtava!

    Tänään on kesäpäivänseisaus eli pohjoisen pallonpuoliskon vuoden pisin päivä. Paitsi yötöntä yötä, tänään voi juhlistaa tieteellistä havaintoa, joka tehtiin Egyptissä yli 2000 vuotta sitten: maapallo on pyöreä ja valtava! Aurinko paistaa tänään kohtisuoraan taivaalta Kravun kääntöpiirillä.

  • Olenko tarpeeksi hullu ollakseni nero?

    Tutkijoita pitäisi arvioida heidän hulluutensa perusteella.

    Tieteentekijöitä ei pitäisi arvioida julkaistujen artikkelien määrällä tai yliopiston kassaan kilahtaneilla euroilla, vaan hörhöydellä. Onhan hyvin tiedossa, että mitä suurempi tutkija, sitä enemmän pihalla, kirjoittaa teollisuusmatemaatikko Samuli Siltanen. Tieteellisen työni määrää ja laatua mitataan erilaisilla numeroilla. Kuinka monta artikkelia julkaisin viime vuonna?

  • Katse taivaalle kesäpilviin

    Katse taivaalle kesäpilviin

    Kesä on erinomaista aikaa tutustua pilviin. Tuttujen poutaisten Cumulus-kumpupilvien lisäksi taivaalla vaeltaa valkoisia kalanruotoja, höyheniä ja joskus ufomaisia pilviviritelmiä. Ne erottuvat hyvin sinistä taivasta vasten. Kesätaivaalle kuuluvat myös näyttävät ukkos- ja myrskypilvet.

  • "Sinä et kuole tänään”, hoitajan sanat levinnyttä rintasyöpää sairastavalle Anitalle

    Luuston etäpesäkkeet muuttivat Anitan elämän.

    Viisikymppinen Anita sai tietää rintasyöpähoitojen alkuvaiheessa, että luustosta löytyi pari etäpesäkettä. Syöpä oli siis levinnyt. Tällöin rintasyövän ennuste on ankarampi kuin sairauden, jossa syöpäkasvaimia löytyy rinnasta ja/tai kainalosta. Levinneessä taudissa keskimääräinen elossaoloaika on kolme vuotta.

Lue myös - yle.fi:stä poimittua

Tiede

  • Kesäpäivänseisaus - päivä jolloin maapallon ympärysmitta selvisi

    240 eaa tehtiin havainto: maapallo on pyöreä ja valtava!

    Tänään on kesäpäivänseisaus eli pohjoisen pallonpuoliskon vuoden pisin päivä. Paitsi yötöntä yötä, tänään voi juhlistaa tieteellistä havaintoa, joka tehtiin Egyptissä yli 2000 vuotta sitten: maapallo on pyöreä ja valtava! Aurinko paistaa tänään kohtisuoraan taivaalta Kravun kääntöpiirillä.

  • Katse taivaalle kesäpilviin

    Katse taivaalle kesäpilviin

    Kesä on erinomaista aikaa tutustua pilviin. Tuttujen poutaisten Cumulus-kumpupilvien lisäksi taivaalla vaeltaa valkoisia kalanruotoja, höyheniä ja joskus ufomaisia pilviviritelmiä. Ne erottuvat hyvin sinistä taivasta vasten. Kesätaivaalle kuuluvat myös näyttävät ukkos- ja myrskypilvet.

  • Olenko tarpeeksi hullu ollakseni nero?

    Tutkijoita pitäisi arvioida heidän hulluutensa perusteella.

    Tieteentekijöitä ei pitäisi arvioida julkaistujen artikkelien määrällä tai yliopiston kassaan kilahtaneilla euroilla, vaan hörhöydellä. Onhan hyvin tiedossa, että mitä suurempi tutkija, sitä enemmän pihalla, kirjoittaa teollisuusmatemaatikko Samuli Siltanen. Tieteellisen työni määrää ja laatua mitataan erilaisilla numeroilla. Kuinka monta artikkelia julkaisin viime vuonna?

  • Elämää avaruudessa - painottomuus haastaa astronautit

    Sukat vaihdetaan kerran viikossa ja lautasetkin syödään.

    Kansainvälinen avaruusasema ISS kiertää maapalloa noin 400 kilometrin korkeudessa huimaa 28 000 kilometrin tuntivauhtia. Tällä hetkellä kyydissä on viisi astronauttia ja kaiken kaikkiaan siellä on elänyt 200 ihmistä. Mutta millaista on elää painottomuudessa? Miten siellä hoidetaan arkiset askareet?

  • Näkökulma: Pelastetaan ilmasto ydinvoimalla!

    Ydinvoima ei tuota hiilipäästöjä. Sitä pitäisi hyödyntää.

    Kuinka monta hiiliatomia täytyy polttaa, jotta saadaan yhtä paljon lämpöä kuin yhden uraaniytimen halkaiseminen tuottaa? Vastaus on 50 000 000. Siis 50 miljoonaa! Havainnollistan: jos hiiliatomi vastaa yhtä riisinjyvää, uraaniatomi on kuin tuhat kiloa riisiä.