Lahjoita puhetta -kampanjassa kerätään suomalaisten puhetta, jotta saisimme oikeasti toimivan puheentunnistuksen. Mutta kuinka puheentunnistus oikein tapahtuu? Ja miksi puhetta täytyy kerätä valtavasti, että homma onnistuu?
On vuosi 2025. Kesäfestareille tulleet turkulainen, karjalainen ja vastikään Suomeen muuttanut belgialainen kysyvät puhelimeltaan: “Missä voin pestä kädet?”.
Karttasovellus saa käsiteltäväkseen kolme melko eri näköistä lausetta:
Misä mää voin pest käret?
Mis mie voin pestä käet?
Misseeh pesthe eehm khesie?
Miten puhesovellus voi ymmärtää, haluaako puhuja pestä kärkiä, käkiä, käsiä vai kesiä?
Ei se ymmärräkään.
Tekoäly ei “ymmärrä” mitään, vaan laskee. Puheen tunnistustaminen pohjaa tilasto- ja todennäköisyysmatematiikalle.
Tavallaan samaa tekevät ihmisetkin. Turkulaiselle normaalia on sanoa "pest käret". Karjalainen katsoisi kenkiensä kärkiä sen kuullessaan. Ja kun karjalaisen normaali on puolestaan "pestä käet", ihmettelisi turkulainen puolestaan käki-lintujen pesemisen tarvetta.
Mutta puhumaan oppivalle lapselle, joka varttuu turkulais-karjalaisessa perheessä, ovat molemmat ilmaukset yhtä normaaleja. Turkulais-karjalainen taapero osaa nopeammin päätellä, mitä lausuja todennäköisimmin tarkoittaa.
Tekoälyä voi ajatella tällaisena lapsena, jolle pitäisi antaa mahdollisimman monta suomenkielistä kielikylpyä.
Mitä kattavampi ja rikkaampi aineisto puhetta lahjoitetaan, sitä tarkempi puheentunnistus.
Juuri tästä syystä suomen kielen puheentunnistus ei älylaitteissa tällä hetkellä toimi niin hyvin ja monelle puhujalle kuin pitäisi. Kansainvälisten kaupallisten kehittäjien suomen kielen puhepankki on rajallisen pieni. Sitä ei ole kerätty systemaattisesti eri ryhmiltä ympäri Suomea. Siksi nyt on käynnistynyt Lahjoita puhetta -kampanja, jossa kerätään 10 000 tuntia suomen kieltä eri murteilla ja tavoilla puhuttuna.
Voit lahjoittaa puhettasi sivulla lahjoitapuhetta.fi tai lataamalla sovelluskaupoista mobiilisovelluksen Androidille tai iOSille.
Näin lahjoittamasi puhe opettaa suomenkielistä tekoälyä
1. Puheesi muutetaan tekstiksi eli litteroidaan
Kaikki murrepiirteet ja välisanat kirjoitetaan tekstiksi juuri sellaisina, kuin ne puheessa esiintyvät. Tämä on tärkeää siksi, että koneen on kyettävä arvioimaan kaikki äänet voidakseen vertailla eri tekstihypoteesien todennäköisyyksiä (kuten kuvassa)
Prosessi on automatisoitu: Kielen tutkijat vastaavat tästä prosessista, mutta eivät itse suinkaan ehdi kuuntelemaan ja kirjoittamaan kaikkea käsin. Kone kirjoittaa, ja tutkijat tekevät tarkistuksenomaisia pistokokeita.
2. Puhemateriaali tulkitaan
Tulkintavaiheessa tekoälylle syötetään kaikki se tieto, minkä myös ihmistulkki tarvitsee kääntäessään vieraasta kielestä toiseen;
- akustiset mallit eli ääntämisen
- kielen mallit eli kieliopin
- sanaston
Lisäksi myös ihmistulkin on tiedettävä, mitkä sanat sopivat yhteen ja mitkä lauseet ovat yleisiä ja mitkä harvinaisia.
Nyt puhujan taustatiedot nousevat tärkeään asemaan. Kone tekee ryhmittelyn puheen perusteella. Se niin sanotusti klusteroi datan ja analysoi sitä oman viiteryhmän kesken. Murretaustaa, ikäryhmää, sukupuolta ja äidinkieltä tarvitaan, kun koneen tulkintoja on selitettävä ihmisille.
Myös oppimisprosessi tapahtuu automaattisesti, koneellisesti. Jos koneoppimisvaiheessa tutkijat havaitsevat joitakin poikkeamia, he ottavat kyseisen puhenäytteen kuunteluun ja muokkaavat puheentunnistusmenetelmiä ja keräävät lisää dataa käsin. Kyseessä saattaa olla vaikkapa Down-lapsen puhetta, tai jonkin muun pienen ryhmän, jonka puhetta on vain hyvin vähän puhepankissa. Kaikkea aineistoa tutkijat eivät millään pysty kuuntelemaan.
3. Lopputuloksena on tunnistettu todennäköinen puhe
Tulkintaprosessin jälkeen tekoäly on oppinut vaikkapa turkulaisten 50-80-vuotiaiden puhuvien naisten tyylin puhua. Ja pystyy tunnistamaan heidän tapansa ilmaista "pestä kädet".
Tekoäly siis laskee puheessa esiintyvien erilaisten tapahtumien tilastollisia esiintymisiä. Aivan kuten ihmiselläkin, tekoälyn “päättely” pohjaa siis sille, mitä se on eniten “kuullut” ja mikä sen perusteella on "järkevää".
Tekoäly ei kuitenkaan "päättele", vaan laskee sille annetusta aineistosta, mikä on todennäköisintä tilastojen valossa.
Voit lahjoittaa puhettasi sivulla lahjoitapuhetta.fi tai lataamalla sovelluskaupoista mobiilisovelluksen Androidille tai iOSille.
Suomalaisia erityishaasteita
Suomen kielen miljoonat taivutusmuodot eivät juuri helpota puheentunnistuksen kehittämistä. Sanastojen kokoaminen toimii englannin mutta ei suomen kielellä.
Englannin kielen puheentunnistuksen kohdalla on esimerkiksi tehty näin: Tutkijat ja tekoälyn kehittäjät määrittelevät, mitkä yleisimmät sanat tekoälylle kannattaa opettaa. Sen jälkeen kyseisille sanoille on rakennettu malleja. Esimerkiksi englannin kielessä puheentunnistuksessa päästään alkuun, kun määritellään 60 000 sanan sanasto.
Suomen kielessä tämä ei toimi. Yksin substantiivien taivutusmuotoja on vähintään 15, joten sanamuotoja on miljoonia ja taas miljoonia. Sanaston laatiminen on mahdotonta.
Taivutusmuodot eivät monesti edes muistuta toisiaan. Esimerkiksi sana yö. Sen monikko on yöt, mutta sitten tulee haasteita: on tiedettävä, että aivan erinäköinen öiden -sana onkin yö-sanan genetiivin monikko, ja että itse asiassa myös öitten tarkoittaa samaa.
Tästä syystä suomen kielen sanat pilkotaan osiin, ja näille pienemmille äänneosille tehdään malleja.
Tämän jälkeen tekoäly analysoi, mitkä äänneyhdistelmät muodostavat sellaisen suomen kielen sanan, joita on nähty aiemmin, tai joka koostuu osista jotka sopivat hyvin yhteen.
Tämä puolestaan yhdistyy tietoon siitä, mikä lauseen yhteydessä olisi todennäköinen suomenkielinen lause. “Käkien”, “kesien” eikä edes “kärkien” peseminen ole tilastollisesti todennäköistä toimintaa, joten kyseessä täytyy olla kädet.

Mitä kattavampi puhepankki, sitä tarkempi tekoäly
Mitä rikkaampi ja monipuolisempi aineisto eli puhepankki tekoälyn käyttöön saadaan, sitä paremmin älylaitteet tulevaisuudessa ymmärtävät mahdollisimman monen suomalaisen puhetta.
Tutkijoiden arvion mukaan noin 10 000 tuntia olisi riittävä määrä, jotta puheentunnistus olisi tarpeeksi tarkka useimmille eri tavoin suomea puhuville
Mutta jos ainoastaan turkulaiset puhuvat 10 000 tuntia, luomme tekoälyn, joka tietää, kuinka päästä “föril tois pual jokke”, mutta ei "linkillä Kirriin".
Tai jos ainoastaan 15–50-vuotiaat lahjoittavat puhettaan, laskee tekoäly tietenkin aivan erilaiset todennäköisyydet kuin jos puhepankissa olisi ainoastaan 60–100-vuotiaiden asuvien puhetta.
Eivätkä ainoastaan murretausta ja ikä vaikuta tapaan puhua. Myös esimerkiksi miesten ja naisten tapa puhua ja käyttää sanoja eroavat toisistaan. Yksilöissä on tietenkin eroja, mutta suurissa tilastoissa toisistaan poikkeavat ryhmät tulevat esille.
Erityisen tärkeää on saada mukaan lasten, vanhusten, ja ulkomaalaistaustaisten ääntä. Puheeseen voi myös vaikuttaa jokin vamma tai sairaus. Näillä henkilöillä saattaa lisäksi olla vieläpä korostunut tarve käyttää älylaitteita arkensa apuna. Tällöin on erityisen tärkeää saada myös heidän puhettaan kehitystyön avuksi, sillä sitä paremmin he pystyvät käyttämään älylaitteita puhesovelluksilla tulevaisuudessa.
Tarvitaanko karjalaisille ja turkulaisille omat sovelluksensa?
Lahjoita puhetta -hanke on ensimmäinen laatuaan. Mitään läheskään näin laajaa puheaineistoa ei suomalaisilta ole aikaisemmin kerätty.
Hankkeessa kerätään tuntimääräisesti laajin yksittäistä tutkimusaihetta varten kerättävä puheaineisto. Hanke vastaa suuruusluokaltaan Kalevalan tai kansanrunouskokoelman aineistojen keruuta. Toteutuessaan 10 000 tunnin puhepankki on kuin kirjasto, kun tähän asti tekoälyn tutkijoilla on ollut käytettävissään korkeintaan muutamia yksittäisiä kirjoja.
Kalevalan jälkeen on toki kerätty kymmeniä tuhansia tunteja puhetta esimerkiksi Suomen kielen nauhoitearkistoon, joka on tiettävästi maailman suurin kielitieteellinen äänitekokoelma. Aiemmin äänitteitä on kuitenkin kerätty eri kokoelmiin ja hankkeisiin monen vuosikymmenen ajan ja ne ovat aiheiltaan erityyppisiä.
Tästä syystä tutkijatkaan eivät tarkasti tiedä, millaisia erilaisia malleja tekoälylle lopulta rakentuu.
Esimerkiksi englannin kielelle löytyy useita eri puheentunnistusmalleja. Irlantilaiset, skotlantilaiset, walesilaiset ja australialaiset kun puhuvat englantia kuin ne olisivat omia kieliään.
Todennäköisesti Suomessa kaikki erilaiset tavat puhua suomea yhdistetään yhdeksi suureksi malliksi. Mutta nähtäväksi jää, kannattaako karjalaisille ja turkulaisille sittenkin tehdä omat puheentunnistusmallinsa.
Voit lahjoittaa puhettasi sivulla lahjoitapuhetta.fi tai lataamalla sovelluskaupoista mobiilisovelluksen Androidille tai iOSille.
Muokattu
16.6. klo 13:46: Lisätty tietoa Suomen kielen nauhoitearkiston äänitekokoelmasta.
17.6. klo 11:38 Lisätty linkit mobiilisovelluksen lataamiseksi.