Hyppää pääsisältöön

Ylen näkökulmat

Tervetuloa datan käyttäjäksi – Ylen media-arkisto kutsuu tutkijoita ja kehittäjiä yhteistyöhön

Päivitetty 05.10.2021 08:48.
Lyhyttukkainen, silmälasipäinen mies katsoo kohti ja hymyilee, lähikuva.

Tutkitko asioita, jotka liittyvät mediaan tai Yleen? Kiinnostaako puheentunnistuksen tutkimus? Voisiko data Ylen sisällöistä olla hyödyksi opinnoissasi tai tutkimusprojektissasi?

Yle tuottaa päivittäin uutta sisältöä kuvana, äänenä ja tekstinä, kaikilla kotimaisilla kielillä. Tätä on arkistoitu koko yhtiön elinkaaren ajalta, jo 95 vuoden ajalta! On luontevaa että Yle tarjoaa tutkimukseen dataa, jota kenelläkään muulla ei ole tarjota. 

Datan avaamisen perusajatus on yksinkertainen: mitä laajemmin julkisin varoin luotua dataa hyödynnetään, sitä tehokkaammassa käytössä datan luomiseen käytetyt rahat ovat. 

Tiedämme myös, että osa tutkimusaiheista ja -menetelmistä vaatii realistista dataa raaka-aineikseen. Esimerkiksi kotimaisia kieliä laajasti ymmärtävien puheentunnistinten kehittäminen vaatii runsaasti ääniesimerkkejä tutkimuksen polttoaineeksi. Haluamme lisätä tähän tarjontaan esimerkkejä ammattilaismedian eri genreistä.

Uudet AV-datasetit

Yle on julkaissut AV-datasettejä tutkimuskäyttöön media-arkistostaan. Datasetit on luotu yhteistyössä mm. Helsingin yliopiston, Aalto-yliopiston ja Lingsoft Oy:n kanssa eurooppalaisen MeMAD-tutkimus- ja innovaatioprojektin aikana.

Kotimaiset tutkijat voivat pyytää metadataa ja mediaa käyttöönsä matalalla kynnyksellä ja tätä kautta täsmentää myös omia tarpeitaan: Mitä muuta pitäisi olla tarjolla? Kuinka paljon tällaiselle datalle on kysyntää?

Tässä kokeilussa on julkaistu kolme datasettiä, joista kullakin on oma tarkoituksensa:

  • Setti 1 demonstroi millaisia automaattisia analyysejä median sisällöstä voidaan nykykeinoin tehdä. Setti sisältää myös testiaineiston – ns. oikeat vastaukset – suomen- ja ruotsinkieliselle puheentunnistukselle ja puhujien erottelulle toisistaan eli diarisaatiolle.

  • Setti 2 sisältää laajemman esimerkkiaineiston Ylen ohjelma-arkistosta ja sen avulla voi tutustua Yleltä saatavissa olevaan dataan ja kokeilla erilaisia media-alaan liittyviä tutkimusmenetelmiä ja -välineitä.

  • Setti 3 on kohdennettu tekstitysten ja niiden konekääntämisen kehittämiseen. Se sisältää pelkkää tekstiä, keskittyen ohjelmiin joista on tarjolla rinnakkaiset tekstitykset eri kielillä.

Rekisteröidy käyttäjäksi!

Datasettejä voi pyytää käyttöön ilmaiseksi rekisteröimällä tutkimusprojektinsa julkaisusivulta löytyvällä lomakkeella. Tutkimuskäyttöä voi olla esimerkiksi oman tutkimusryhmän työkalujen testaaminen ja demonstroiminen.

Rekisteröityessään datan pyytäjä hyväksyy aineiston käyttöehdot. Nämä ovat ehdot, joilla mm. tekijänoikeuksien haltijat ovat antaneet Ylelle luvan luovuttaa kopioita ohjelmistaan.

Tärkeimmät ehdot käytölle ovat 

  1. aineistoa käytetään tutkimustarkoituksiin

  2. aineiston pyytäjä sijaitsee Suomessa (kansainvälinen yhteistyö on toki sallittua)

  3. aineistoa saa käyttää rajatun ajan ja vain siihen tarkoitukseen, joka rekisteröityessä on ilmoitettu.

Kokeilun ensimmäisessä vaiheessa olemme lunastaneet käyttöluvan 50 ensimmäiselle projektille, eli ilmoittaudu mukaan pian!

Yhteistyö luo uusia mahdollisuuksia

Parhaissa tapauksissa myös Yle voi hyötyä tutkimuksen tuloksista, vaikka kyse ei olisikaan suoranaisesta tuotekehityksestä. Esimerkiksi kuvien, äänten ja tekstien ymmärtäminen koneellisesti pohjautuu lupaavaan, mutta vielä keskeneräiseen teknologiaan, ja haluamme osaltamme tukea näiden asioiden kehittymistä Suomessa. 

Datan tarjoaminen ruokkii myös Ylen keskustelua tutkija- ja kehittäjäyhteisöjen kanssa. Vaikka emme suoraan osallistuisi tutkimustyöhön, kuulemme ajankohtaisista aiheista ja voimme myös kertoa omista ajatuksistamme ja tarpeistamme tutkimusryhmille.

Yle voi dataseteillään myös tarjota neutraalin yhteisen referenssipisteen tutkimuksen ja kehityksen edistymisen seurantaan. Jos tutkimusryhmäsi tai yrityksesi kehittää puheentunnistusta kotimaisille kielille, miten hyvin pärjäätte verrattuna muihin ja miten olette edistyneet kuluneen viimeisten kuukausien aikana? 

Inspiraatioksi Ylen oman analytiikkatiimin vertailun tuloksia keväältä 2021 – yhden esimerkkiohjelman sanavirheiden osuus suomenkielisessä puheentunnistuksessa (word error rate eli WER ; pienempi numero on parempi eli tunnistuksessa on ollut vähemmän virheitä):

wer (globaali jättiyritys 1):0.354
wer (globaali jättiyritys 2):0.288
wer (kotimainen erikoisyritys):0.19
wer (kotimainen it-talo)0.483

Onko tilanne parempi puolen vuoden kuluttua? Mitä muita asioita voisi ja kannattaisi testata yhteisellä testidatalla?

Tervetuloa Ylen datan käyttäjäksi ja yhteistyöhön! Jos haluat kysyä lisää esimerkiksi  dataseteistä, niin ota yhteyttä vaikkapa sähköpostitse, lauri.saarikoski@yle.fi. Kommentit ja kokemukset näistä dataseteistä ovat meille tärkeitä – kehitämme datan avaamista saamamme palautteen perusteella.

Lauri Saarikoski
Kehityspäällikkö, Yle Arkisto

P.S. Kiinnostaako avoin data muutenkin? Katso mitä Yle on jakanut jo aiemmin.

Keskustelu

Keskustelu sulkeutuu 2.11.2021.