Koska dataa tuotetaan ja kerätään lähes käsittämättömän paljon päivässä, kerättyä dataa kaivelemalla voidaan löytää yllättävää tietoa. Henkilötietojen onkimisen ja muiden hieman karmivien esimerkkien lisäksi massadatan avulla voidaan rakentaa esimerkiksi jalkapallokoosteita liukuhihnalta työstävä kone.
– Kaikki meidän laitteemme ovat nykyään digitaalisia, joten on oikeastaan helpompaa kerätä dataa kuin olla keräämättä, sanoo Helsingin yliopiston tietojenkäsittelytieteen professori ja tietoteknisen tutkimuskeskus HIIT:n johtaja Petri Myllymäki.
Dataa tuotetaan koko ajan, IBM:n mukaan päivittäin noin 2,5 triljoonaa tavua (triljoonassa on 18 nollaa). Yli 90 prosenttia kaikesta maailman datasta on peräisin viimeisen parin vuoden ajalta.
Esineiden internetiä tutkinut Kary Främling kertoo tuoreimman Aalto Magazinen haastattelussa, että hänen talonsa huolehtii itsestään ja asukkaistaan. Pienet anturit mittaavat esimerkiksi hiilidioksiditasoa ja kylpyhuoneen kosteutta. Anturien keräämän datan perusteella talo säätelee tasoja pitäen ne optimaalisena. Rakennukset ovat vain yksi esimerkki siitä, että dataa tullaan keräämään ja hyödyntämään tulevaisuudessa yhä enemmän.
Kun dataa kertyy itsestään, jälkeenpäin voidaan keksiä, mihin muuhun tätä kerättyä dataa voitaisiin hyödyntää. Tämä on Petri Myllymäen mukaan niin sanotun big data -ilmiön idea. Dataa kaivellaan tyypillisesti tietokonealgoritmeillä, ja prosessia kutsutaan datanlouhinnaksi. Datafuusiolla tarkoitetaan sitä, kun kahta tai useampaa datamassaa yhdistellään niin, että saadaan luotua uutta tietoa. Alla on muutama esimerkki siitä, mitä nämä termit käytännössä tarkoittavat.
Jalkapallokoosteista juuri sen mittaisia kuin haluat
Jos jalkapallokoosteen leikkaamisen voisi ulkoistaa tietokoneelle, Yle tai joku muu taho voisi tarjota katsojilleen palvelua, jonka kautta jokainen voisi ítse päättää, kuinka pitkän koosteen haluaa nähdä? Esimerkiksi 90 minuutin kooste jalkapallon EM-ottelusta tarkoittaisi käytännössä koko ottelua, 10 sekunnin pätkä ehkä ratkaisumaalia. Käsityönä tällaista palvelua tuskin toteuttaisi kukaan, koska siihen menisi liikaa aikaa. Vähän sama kuin jos ruokakaupan kassan täytyisi kantaa asiakkaan ostokset kotiin, vaikka kassalla olisi pitkä jono.
Koneoppimiseen parissa työskentelevä Petri Myllymäki on pohtinut huvikseen tätä ongelmaa jo aiempien jalkapallokisojen aikana. Kun jalkapallosta kiinnostunut ihminen rakentaa futiskoosteen, hän tunnistaa kiinnostavat kohdat videolta, kun taas koneelle mielenkiintoisten pelitilanteiden löytäminen kuvan perusteella on hankalaa.
Myllymäki ja hänen tutkimusryhmänsä jäsenet keksivät kiertotien. Tv:ssä lähetettävä jalkapallo-ottelu koostuu videosta ja äänestä, joka jakautuu stadionin äänimaisemaan ja selostajan puheeseen. Jos kone poimisi ääniraidasta kohdat, joissa äänenpainot nousevat, eli jolloin selostaja ja yleisö huutavat, todennäköisesti ainakin maalit ja läheltä piti -tilanteet tarttuisivat koosteeseen. Eli yksinkertaisesti poimittaisiin esimerkiksi Islannin ja Itävallan alkulohkokamppailun tallenteesta 37 kovaäänisintä minuuttia ja loput jätettäisiin pois.
Islantilaisselostaja Gudmundur Benediktsson hullaantui, kun Islanti voitti Itävallan viime hetkellä ja varmisti jatkopaikkansa vuoden 2016 EM-kisoissa (Yle Areena).
Ylen selostaja Niki Juuselan voimakkaita tunteita jalkapallon MM-kisojen puolivälierissä 2010. Videolta kuulee hyvin, miten äänentasot saattavat nousta kiinnostavilla hetkillä (Youtube).
Myllymäki kertoo, että eräs hänen kollegansa keksi vielä äänen analysointiakin helpomman ratkaisun ongelmaan. Futismatseja kommentoidaan Twitterissä paljon. Kun tviittien määrä tietyn ottelun hashtagilla lisääntyy, todennäköisesti jotain merkittävää tapahtuu. Esimerkiksi kun Turkki–Kroatia-pelin lähetyksessä kuului räjähdys, monet kyselivät Twitterissä, mitä oikein tapahtui.
Monet jalkapallon EM-kisoja Twitterissä kommentoivat käyttävät hashtagia, joka muodostuu joukkueiden virallisista lyhenteistä, esim #TURCRO (Turkey–Croatia).

Kun poimitaan ottelun 37 tviitatuinta minuuttia ja otetaan kellonaikoja vastaavat kohdat ottelusta, saadaan ottelun parhaat palat Twitterin perusteella. Myllymäen mukaan olisi myös mahdollista analysoida, mitä ihmiset kirjoittavat Twitterissä. Näin saataisiin seulottua entistä varmemmin ottelun mielenkiintoisimmat tapahtumat.
Jalkapallokoosteita leikkaava kone on yksinkertainen esimerkki siitä, mitä eri datalähteitä yhdistämällä voidaan luoda.
Netflix ei ymmärtänyt julkaisevansa arkaluontoisia tietoja
Kun aivan eri tarkoituksiin kerättyjä datamassoja onnistutaan louhimaan, niistä voidaan löytää yllättäviä riippuvuuksia. Esimerkiksi vuonna 2006 yhdysvaltalainen suoratoistopalvelu Netflix käynnisti avoimen kilpailun, jossa joukkueiden tehtävänä oli parantaa elokuvien suosittelua Netflixin käyttäjille. Eli rakentaa kone, joka ymmärtää käyttäjän elokuvamaun.
Netflix laittoi lähes puolen miljoonan käyttäjän tekemät elokuva-arviot jakoon nimettöminä. Netflix oletti, ettei käyttäjiä voida tunnistaa ja kilpailu olisi harmiton, mutta toisin kävi. Teksasin yliopiston tutkijat vertailivat Netflixin kilpailua varten julkaisemaa datapakettia Internet Movie Databasen -sivuston käyttäjien julkisiin tietoihin. Tutkijat löysivät yhteyksiä Netflixin ja IMDb:n välillä ja osa Netiflix-käyttäjistä olisi voitu paljastaa.
Netflix joutui peruuttamaan suunnittelemansa toisen kilpailun. Ongelmana oli, että vaikka ihmiset arvioivat elokuvia IMDb:ssä julkisesti, Netflixin keräämät tiedot olivat yksityisiä. Ehkä joku käyttäjä on halunnut antaa elokuvamaustaan tietyn kuvan IMDb:ssä, mutta katsella ja arvostella salaa Netflixissä. Tämä kuvastaa sitä, miten salassa pidettävät, arkaluontoiset tiedotkin voivat paljastua, jos dataa yhdistellään taitavasti algoritmeillä.
Ajatustenlukua ja unien sieppaamista datafuusion avulla
Siitä, miten pitkälle datafuusion avulla voidaan tulevaisuudessa mennä, on saatu jo viitteitä. Lue Prisma Studion juttu japanilaisten tekemästä tutkimuksesta, miten unensieppaaja rakennetaan.
Myös Jyväskylän yliopiston tutkijat ovat tehneet hieman vastaavaa tutkimusta vuonna 2013. He tarkkailivat, mitä aivoissa tapahtuu, kun kuunnellaan musiikkia. Koehenkilöt kuuntelivat The Beatlesin Abbey Road -albumia, jonka musiikin muutokset rytmissä, sävellajissa ja sointivärissä saatiin analysoitua algoritmeillä. Kun nähtiin, miten aivot reagoivat tietyn tyyppiseen musiikkiin, voitiin tehdä sama käänteisesti ja tunnistaa aivotoiminnan perusteella, minkä tyyppistä musiikkia ihminen kuuntelee.
Vastaavaa aivotoiminnan tulkintaa on kokeiltu myös liikkuvalla kuvalla. Kalifornialaisessa Berkeleyn yliopistossa on onnistuttu tulkitsemaan videoita aivotoiminnan perusteella. Koehenkilöiden aivoja kuvattiin heidän katsoessaan Hollywood-elokuvien trailereita. Seuraavaksi samat henkilöt katsoivat eri trailereita ja jälleen heidän aivotoimintaansa mitattiin. Koneelle annettiin toisessa kokeessa vain mitatut aivokuvat, jonka perusteella se onnistui piirtämään kohtalaisen lähelle sen kuvan, jonka ihmiset kulloinkin näkivät. Berkeleyn kone siis löysi riippuvuuksia koehenkilöiden aivotoiminnan ja kuvan välillä.
Kalifornialaisen Berkeleyn yliopiston tutkija Jack Gallant kertoo heidän tekemästään aivotutkimuksesta (Youtube).
Kiinnostaako avoimen datan soveltaminen?
Pääkaupunkiseudun kaupunkeihin liittyvää dataa on avattu kaikkien hyödynnettäväksi. Helsinki Region Infoshare -sivustolta löytyy tietoaineistoja Helsingin geologisesti arvokkaista kohteista, Vantaan pyöräilytilastoista ja 543 muusta aiheesta. Ideana on, ettei kaupunkien keräämä data makaisi toimettomana, vaan ihmiset ideoisivat ja toteuttaisivat sen pohjalta hyödyllisiä sovelluksia. Alla on Helsingin kaupungin tietokeskuksen projektipäällikkö Tanja Lahden suosittelemia esimerkkejä siitä, millaisia juttuja HRI:n avoimen datan päälle on rakennettu.
Palvelukartta
Kaikki julkiset palvelut kouluista terveyskeskuksiin ja Kelan konttoreihin kartalla. Palvelukartta näyttää ja kertoo reitin kohteeseen, ja lisäksi käyttäjä voi valita, jos hän esimerkiksi käyttää rollaattoria tai on liikkeellä lastenrattaiden kanssa. Sovellus hyödyntää neljää eri HRI:n avointa tietolähdettä: pääkaupunkiseudun toimipisterekisteriä, Helsingin seudun liikenteen dataa, tapahtumarajapintaa ja palautejärjestelmää. Lisäksi karttasovellus on avoin kartta OpenStreetMap.
Blindsquare
Sokeille tarkoitettu GPS-sovellus, joka kertoo keinotekoisen puheen avulla tietoa ympäristöstä käyttäjälle. Käyttää osittain samoja tietoaineistoja kuin Palvelukartta, mutta myös yhteisöllisesti tuotettua paikkatietoaineistoa Foursquare-sovelluksesta.
Uusi Kannelmäki
Karttasovellus, johon on yhdistetty monia kartalle visualisoitavissa olevia tietoaineistoja, kuten liikennemääriä ja asuntojen hintoja. "– – digitaalinen kartta, jossa eri karttatasoja voi vertailla päällekäin helposti", kuvataan HRI:n sivuilla.
Helsinki ennen
Helsingin karttoja eri vuosikymmeniltä yhdistettynä Googlen selailtavaan katukuvaan ja Helsingin kaupunginmuseon kuviin, jotka on sijoitettu kartalle. Käyttäjä näkee kaupungin muutoksen keskenään vertailtavin kartoin ja kuvin.
Espoon energiatietopalvelu
Espoon kaupunkisuunnittelukeskuksen luoma palvelu, josta uusiutuvaa energiaa kotiinsa haluava voi katsoa, miten kannattavaa sen tuottaminen olisi omassa asunnossa. Karttapohjaisessa palvelussa on yhdistetty Espoon aurinkoenergia- ja geoenergiakartat.
Kuvalähteet: Smithsonian Institution, Mennonite Church USA ja Florida Memory
Päivitetty versio 24.6.2016 julkaistusta jutusta. Muun muassa otsikkoa ja jutun rakennetta muutettu.