Hyppää pääsisältöön

Keinotekoinen puhe pelasti Stephen Hawkingin – pian kone korvaa myös vajaat kielitaitosi

Fyysikko Stephen Hawking Teneriffan Starmus Festivaalilla vuonna 2014
Fyysikko Stephen Hawking Starmus-festivaaleilla Teneriffalla vuonna 2014. Fyysikko Stephen Hawking Teneriffan Starmus Festivaalilla vuonna 2014 Kuva: Cristobal Garcia / EPA keinotekoinen puhe

Miltä kuulostaisi arki, jossa kaikki lehdet ja kirjat voisi kuunnella ja jokaista kieltä puhuva tulkki löytyisi taskustasi? Tekstistä puheeksi -synteesijärjestelmät ovat melkein tehneet näistä totta. Keinotekoisen puheen historia alkoi jo 1700-luvulla. Tiedeykkönen selvitti, miten tähän on päädytty.

Aiheeseen kuuluvasti koko tämän jutun voi lukemisen sijaan myös kuunnella. Alla on kaksi erilaista synteesiä, joista toinen perustuu yhden ihmisen ääneen, toinen useamman kymmenen äänen keskiarvoon. Puheet on tuotettu helsinkiläisen Lausumo Oy:n synteesijärjestelmällä. Yrityksessä on mukana tutkijoita Helsingin yliopistosta ja Aalto-yliopistosta.


Yli kaksisataa vuotta sitten eläneet Christian Gottlieb Kratzenstein ja Wolfgang von Kempelen olivat puheen mallintamisen pioneereja. Kumpikin onnistui kehittämään ihmisen puheentuottoa imitoivat kojeet jo 1700-luvun lopulla.

Von Kempelenin uran ansioluetteloon kuului mekaaninen turkkilainen, ammattilaisen ottein pelaava sakkikone. Ajatteleva turkkilaisen näköinen nukke pieksi hyviä pelaajia sakkilaudalla, joka oli asetettu isohkon pöydän päälle. Todellisuudessa onton pöydän sisällä oli nerokkaasti shakkia pelaava kääpiö, joka ohjaili turkkilaista. Motivaationa tälle petokselle oli tehdä vaikutus Itävallan keisarinnaan Maria Teresiaan.

Turkkilainen oli ehkä merkittävä ja koominen huijaus, mutta puhekone oli oikeasti merkittävä keksintö. Von Kempelenin mallissa ihmisen ääntöelimistöä oli mallinnettu muun muassa palkeilla ja nahasta tehdyllä putkella. Joitakin konsonantteja oli mahdoton muodostaa, mutta silti sillä sai aikaan lauseitakin.

Vaikka mekaaniset puhekoneet jäivät unholaan, Japanissa aluetta tutkitaan ja kehitetään yhä, sillä japanilaiset ovat kiinnostuneita mekaanisen puheentuoton yhdistämisestä robotteihin.

Elektroniset syntetisaattorit sodassa

Bell Labs esitteli New Yorkin maailmannäyttelyssä vuonna 1939 Voder-nimisen laitteen. Voder on tiettävästi ensimmäinen puhetta elektronisesti tuottava laite. Voderin kehitti yhdysvaltalainen Homer Dudley.


Puheen elektroninen imitointi oli mullistava harppaus, vaikka Voder itsessään ei ollut vielä kovin kätevä vekotin. Se oli ikään kuin kosketinsoitin ja sen käyttäjät muusikoita. Voderia ei pystynyt käyttämään ilman kunnollista koulutusta.

Dudley jatkoi puhesyntetisaattoriensa kehittelyä, ja toisen maailmansodan aikana niistä kiinnostui yhdysvaltain sotakoneisto. Kun amerikkalaiset tajusivat, että natsit saavat murrettua Franklin D. Rooseveltin ja Winston Churchillin väliset keskustelut, Dudley pyydettiin apuun. Hänen vokooderinsa avustuksella valtiomiehet saattoivat keskustella tunnistamattomina.

Syntesointi digitalisoituu

Viime vuosisadalla keinotekoisen puheen tuottaminen digitalisoitui. Digitalisaatio on mahdollistanut Text-to-speech (TTS) eli tekstistä puheeksi -järjestelmien kehittämisen. Tähän teknologiaan tämänkin artikkelin kuunteluominaisuus perustuu.

TTS-teknologiassa kone osaa prosessoida tekstin ja sen jälkeen lukea sen ääneen eli muodostaa tekstin pohjalta puhesynteesin. Ensimmäinen vaihe tässä tapahtumasarjassa on tekstin putsaaminen, sillä esimerkiksi lyhenteet täytyy avata ja numerot muuttaa lukusanoiksi.

Teksti analysoidaan ja muutetaan äänteiksi, jotta puhesynteesi olisi mahdollisimman ymmärrettävä. Tätä voisi verrata vieraan kielen opiskeluun, jolloin puhtaan lausumisen tavoittelussa täytyy monesti tuijottaa hakasulkeissa olevia ääntämisohjeita.

Tekstin voi muuntaa puheeksi monella tavalla

Yksinkertaisin ja yleisin käytössä oleva tapa tuottaa varsin luonnollisen kuuloista puhetta on niin sanottu konkatenaatiomalli. Se eroaa selvästi aiemmin mainituista vokoodereista ja mekaanisista puhekoneista, sillä se perustuu oikeaan nauhoitettuun puheeseen. Suuri määrä äänitettyä puhetta pilkotaan äänteiksi, joista voi muodostaa kulloinkin halutun tekstin puhesynteesin. Kyse on siis tiedonhausta.

Vokooderiin perustuvat synteesijärjestelmät mullistuivat 1950-luvulla. Tällöin keksittiin puheentuoton akustinen teoria, jonka mukaan puheesta voidaan erottaa ääntä tuottava lähde (äänihuulet) ja ääntä suodattava osa (ääntöväylä) toisistaan.

Tiedonhakuun perustuvalla leikkaa–liimaa-tekniikalla saa yksinkertaisesti luonnollisen kuuloista puhetta.

Tämän myötä keksittiin akustiseen teoriaan perustuva formanttisyntetisaattori, jollaista esimerkiksi fyysikko Stephen Hawking käyttää. Systeemi on kevyt ja personoitava, koska se perustuu puheen akustisten muuttujien käyttäytymiseen, ei isoon äänimassaan. Malleja muuttamalla kone voidaan laittaa vaikka huutamaan.

Tässä synteesijärjestelmässä on sama idea kuin GSM-puhelimissa: puheesta poimitaan tiettyjä piirteitä. GSM-verkossa ei lähetetä ääntä vaan näitä puheen piirteitä, jotka sitten kootaan puheeksi vastaanottavassa matkapuhelimessa.

Modernit TTS-järjestelmät perustuvat puheen dynaamisten piirteiden ja parametrien tilastolliseen mallintamiseen, jolloin tekstistä ennustetaan niiden käyttäytymistä suhteessa tekstin graafisiin symboleihin (kirjaimet ja välimerkit) ja niistä analysoituihin kielellisiin piirteisiin ja rakenteisiin.

Puhesynteesi auttaa kommunikoimaan

Matkapuhelimien takia synteettinen puhe vaikuttaa huomaamatta elämässämme päivittäin. Mutta missä muualla sitä nykyisin hyödynnetään?

Jo aiemmin mainittu Stephen Hawking on hyvä esimerkki siitä, miten hyödyllinen puhesynteesi voi ihmisille olla. ALS-tautia sairastava Hawking ei pysty puhumaan ilman tekstistä puheeksi -synteesijärjestelmää.

Kaupallisessa mielessä TTS-synteesiä voi hyödyntää esimerkiksi verkkolehdissä. Helsingin Sanomien digitilaajat ovat pystyneet kuuntelemaan Hesarin artikkelit selaimessa viime vuoden marraskuusta lähtien. HS ostaa synteesijärjestelmänsä Readspeakerilta, jonka teknologia on nauhoitettuun puheeseen perustuvaa konkatenaatiosynteesiä.

Googlen kääntäjässä on jo pidempään voinut kuunnella käännetyn tekstin. Vielä pidemmälle vastaavan idean on vienyt Microsoft Skype. Skype Translatorin avulla kaksi keskenään vieraskielistä ihmistä voi keskustella synteesin avulla kumpikin omalla kielellään. Kone tunnistaa sanan, kääntää sen toisen keskustelijan kielelle ja lukee sen ääneen. ExtremeTech lehti vertasikin Skypen tulkkia Applen puheohjausjärjestelmä Sirin ja Googlen kääntäjän yhdistelmäksi.

Juttua varten haastateltu Helsingin yliopiston fonetiikan professori Martti Vainio sanoo, että suomalaisen puhesynteesin tutkimus on paradoksaalisesti hyvin pitkällä, mutta kuitenkin vasta alussa. Neutraalia uutispuhetta pystytään hyvin mallintamaan, mutta spontaania keskustelunomaista puhetta ei niinkään.

Aiheeseen liittyvää

  • Aivotutkija: Nämä viisi asiaa kaipaavat kipeimmin muutosta suomalaisessa työelämässä

    Kiire, uni, tehokkuus, tilat ja verkostotyö.

    Kun aivotutkija päästetään katselemaan suomalaista työelämää, tulee mieleen pitkä lista asioita, jotka kannattaisi muuttaa. Aloitetaan tärkeimmistä, kirjoittaa aivotutkija Minna Huotilainen blogissaan. 1. Kiire ja hoppu pois! Lyhytjänteinen asioista toiseen hyppiminen ja jatkuvat keskeytykset eivät päästä aivoja vakaviin töihin, vaan pitävät meidät lillukanvarsien parissa.

  • Oletko onnellinen? Jos et, haluatko vaikuttaa asiaan?

    Oletko tyytyväinen elämääsi? Koetko itsesi onnelliseksi?

    Moni meistä on mieluummin onnellinen kuin onneton. Onko omassa elämässä kohentamisen varaa? Minkälaista on hyvä ja onnellinen elämä? Aihepiiri tulee iholle ja tuntuu henkilökohtaiselta asialta. Pitääkö vielä olla onnellinen, jos hoitaa työnsä ja perheensä riittävän hyvin? Vai mitä todella ajattelen sisimmässäni, olenko tyytyväinen elämääni tässä ja nyt?

  • Alzheimerin taudin rusentavat muutokset saadaan näkyviin antiaineen avulla

    Antiaine mahdollistaa PET-aivokuvantamisen.

    Alzheimerin taudin aiheuttamat hirvittävät muutokset saadaan näkyviin PET-kuvauksessa antiaineen avulla. Ajatella, että antimaterian keksi 1920-luvulla eräs fyysikko pelkällä kynällä ja paperilla, kirjoittaa teollisuusmatemaatikko Samuli Siltanen blogissaan. Mestarifyysikko Paul Diracilla oli kova itseluottamus.

  • Kaareutuva vai kulmikas? Visuaalinen illuusio kertoo aivojen toiminnasta

    Tietty mustan, valkoisen ja harmaan yhdistelmä sotkee aivot.

    Katso tarkasti yllä olevan kuvaa. Minkälaisia viivoja näet? Ovatko ne pehmeästi kaareutuvia vai kulmikasta siksakkia? Tietty mustan, valkoisen ja harmaan yhdistelmä sopivasti aseteltuna sotkee aivojen ääriviivoja hahmottavia prosesseja, kirjoittaa havaintopsykologi Jukka Häkkinen blogissaan.

Lue myös - yle.fi:stä poimittua

Tiede

  • Aivotutkija: Nämä viisi asiaa kaipaavat kipeimmin muutosta suomalaisessa työelämässä

    Kiire, uni, tehokkuus, tilat ja verkostotyö.

    Kun aivotutkija päästetään katselemaan suomalaista työelämää, tulee mieleen pitkä lista asioita, jotka kannattaisi muuttaa. Aloitetaan tärkeimmistä, kirjoittaa aivotutkija Minna Huotilainen blogissaan. 1. Kiire ja hoppu pois! Lyhytjänteinen asioista toiseen hyppiminen ja jatkuvat keskeytykset eivät päästä aivoja vakaviin töihin, vaan pitävät meidät lillukanvarsien parissa.

  • Oletko onnellinen? Jos et, haluatko vaikuttaa asiaan?

    Oletko tyytyväinen elämääsi? Koetko itsesi onnelliseksi?

    Moni meistä on mieluummin onnellinen kuin onneton. Onko omassa elämässä kohentamisen varaa? Minkälaista on hyvä ja onnellinen elämä? Aihepiiri tulee iholle ja tuntuu henkilökohtaiselta asialta. Pitääkö vielä olla onnellinen, jos hoitaa työnsä ja perheensä riittävän hyvin? Vai mitä todella ajattelen sisimmässäni, olenko tyytyväinen elämääni tässä ja nyt?

  • Kaareutuva vai kulmikas? Visuaalinen illuusio kertoo aivojen toiminnasta

    Tietty mustan, valkoisen ja harmaan yhdistelmä sotkee aivot.

    Katso tarkasti yllä olevan kuvaa. Minkälaisia viivoja näet? Ovatko ne pehmeästi kaareutuvia vai kulmikasta siksakkia? Tietty mustan, valkoisen ja harmaan yhdistelmä sopivasti aseteltuna sotkee aivojen ääriviivoja hahmottavia prosesseja, kirjoittaa havaintopsykologi Jukka Häkkinen blogissaan.

  • Tutkimus: Rasvaiset maitotuotteet voivat olla terveellisempiä - 3 asiantuntijaa vastaa rasvakiistan väitteisiin

    Mitä jos suositukset ovatkin väärässä?

    Rasvaton maito vai täysmaito? Margariinia vai voita? Jugurtti ilman rasvaa vai sittenkin se rasvaisempi versio? Vuosikymmenten ajan niin terveysviranomaiset kuin kuluttajatkin ovat pitäneet näitä kysymyksiä itsestäänselvyyksinä: ostoskoriin kuuluu valita ne vähemmän rasvaiset vaihtoehdot. Mutta voivatko terveysviranomaiset suosituksineen olla väärässä?

  • Alzheimerin taudin rusentavat muutokset saadaan näkyviin antiaineen avulla

    Antiaine mahdollistaa PET-aivokuvantamisen.

    Alzheimerin taudin aiheuttamat hirvittävät muutokset saadaan näkyviin PET-kuvauksessa antiaineen avulla. Ajatella, että antimaterian keksi 1920-luvulla eräs fyysikko pelkällä kynällä ja paperilla, kirjoittaa teollisuusmatemaatikko Samuli Siltanen blogissaan. Mestarifyysikko Paul Diracilla oli kova itseluottamus.