Hyppää pääsisältöön

Keinotekoinen puhe pelasti Stephen Hawkingin – pian kone korvaa myös vajaat kielitaitosi

Fyysikko Stephen Hawking Teneriffan Starmus Festivaalilla vuonna 2014
Fyysikko Stephen Hawking Starmus-festivaaleilla Teneriffalla vuonna 2014. Fyysikko Stephen Hawking Teneriffan Starmus Festivaalilla vuonna 2014 Kuva: Cristobal Garcia / EPA Stephen Hawking,keinotekoinen puhe

Miltä kuulostaisi arki, jossa kaikki lehdet ja kirjat voisi kuunnella ja jokaista kieltä puhuva tulkki löytyisi taskustasi? Tekstistä puheeksi -synteesijärjestelmät ovat melkein tehneet näistä totta. Keinotekoisen puheen historia alkoi jo 1700-luvulla. Tiedeykkönen selvitti, miten tähän on päädytty.

Aiheeseen kuuluvasti koko tämän jutun voi lukemisen sijaan myös kuunnella. Alla on kaksi erilaista synteesiä, joista toinen perustuu yhden ihmisen ääneen, toinen useamman kymmenen äänen keskiarvoon. Puheet on tuotettu helsinkiläisen Lausumo Oy:n synteesijärjestelmällä. Yrityksessä on mukana tutkijoita Helsingin yliopistosta ja Aalto-yliopistosta.


Yli kaksisataa vuotta sitten eläneet Christian Gottlieb Kratzenstein ja Wolfgang von Kempelen olivat puheen mallintamisen pioneereja. Kumpikin onnistui kehittämään ihmisen puheentuottoa imitoivat kojeet jo 1700-luvun lopulla.

Von Kempelenin uran ansioluetteloon kuului mekaaninen turkkilainen, ammattilaisen ottein pelaava sakkikone. Ajatteleva turkkilaisen näköinen nukke pieksi hyviä pelaajia sakkilaudalla, joka oli asetettu isohkon pöydän päälle. Todellisuudessa onton pöydän sisällä oli nerokkaasti shakkia pelaava kääpiö, joka ohjaili turkkilaista. Motivaationa tälle petokselle oli tehdä vaikutus Itävallan keisarinnaan Maria Teresiaan.

Turkkilainen oli ehkä merkittävä ja koominen huijaus, mutta puhekone oli oikeasti merkittävä keksintö. Von Kempelenin mallissa ihmisen ääntöelimistöä oli mallinnettu muun muassa palkeilla ja nahasta tehdyllä putkella. Joitakin konsonantteja oli mahdoton muodostaa, mutta silti sillä sai aikaan lauseitakin.

Vaikka mekaaniset puhekoneet jäivät unholaan, Japanissa aluetta tutkitaan ja kehitetään yhä, sillä japanilaiset ovat kiinnostuneita mekaanisen puheentuoton yhdistämisestä robotteihin.

Elektroniset syntetisaattorit sodassa

Bell Labs esitteli New Yorkin maailmannäyttelyssä vuonna 1939 Voder-nimisen laitteen. Voder on tiettävästi ensimmäinen puhetta elektronisesti tuottava laite. Voderin kehitti yhdysvaltalainen Homer Dudley.


Puheen elektroninen imitointi oli mullistava harppaus, vaikka Voder itsessään ei ollut vielä kovin kätevä vekotin. Se oli ikään kuin kosketinsoitin ja sen käyttäjät muusikoita. Voderia ei pystynyt käyttämään ilman kunnollista koulutusta.

Dudley jatkoi puhesyntetisaattoriensa kehittelyä, ja toisen maailmansodan aikana niistä kiinnostui yhdysvaltain sotakoneisto. Kun amerikkalaiset tajusivat, että natsit saavat murrettua Franklin D. Rooseveltin ja Winston Churchillin väliset keskustelut, Dudley pyydettiin apuun. Hänen vokooderinsa avustuksella valtiomiehet saattoivat keskustella tunnistamattomina.

Syntesointi digitalisoituu

Viime vuosisadalla keinotekoisen puheen tuottaminen digitalisoitui. Digitalisaatio on mahdollistanut Text-to-speech (TTS) eli tekstistä puheeksi -järjestelmien kehittämisen. Tähän teknologiaan tämänkin artikkelin kuunteluominaisuus perustuu.

TTS-teknologiassa kone osaa prosessoida tekstin ja sen jälkeen lukea sen ääneen eli muodostaa tekstin pohjalta puhesynteesin. Ensimmäinen vaihe tässä tapahtumasarjassa on tekstin putsaaminen, sillä esimerkiksi lyhenteet täytyy avata ja numerot muuttaa lukusanoiksi.

Teksti analysoidaan ja muutetaan äänteiksi, jotta puhesynteesi olisi mahdollisimman ymmärrettävä. Tätä voisi verrata vieraan kielen opiskeluun, jolloin puhtaan lausumisen tavoittelussa täytyy monesti tuijottaa hakasulkeissa olevia ääntämisohjeita.

Tekstin voi muuntaa puheeksi monella tavalla

Yksinkertaisin ja yleisin käytössä oleva tapa tuottaa varsin luonnollisen kuuloista puhetta on niin sanottu konkatenaatiomalli. Se eroaa selvästi aiemmin mainituista vokoodereista ja mekaanisista puhekoneista, sillä se perustuu oikeaan nauhoitettuun puheeseen. Suuri määrä äänitettyä puhetta pilkotaan äänteiksi, joista voi muodostaa kulloinkin halutun tekstin puhesynteesin. Kyse on siis tiedonhausta.

Vokooderiin perustuvat synteesijärjestelmät mullistuivat 1950-luvulla. Tällöin keksittiin puheentuoton akustinen teoria, jonka mukaan puheesta voidaan erottaa ääntä tuottava lähde (äänihuulet) ja ääntä suodattava osa (ääntöväylä) toisistaan.

Tiedonhakuun perustuvalla leikkaa–liimaa-tekniikalla saa yksinkertaisesti luonnollisen kuuloista puhetta.

Tämän myötä keksittiin akustiseen teoriaan perustuva formanttisyntetisaattori, jollaista esimerkiksi fyysikko Stephen Hawking käyttää. Systeemi on kevyt ja personoitava, koska se perustuu puheen akustisten muuttujien käyttäytymiseen, ei isoon äänimassaan. Malleja muuttamalla kone voidaan laittaa vaikka huutamaan.

Tässä synteesijärjestelmässä on sama idea kuin GSM-puhelimissa: puheesta poimitaan tiettyjä piirteitä. GSM-verkossa ei lähetetä ääntä vaan näitä puheen piirteitä, jotka sitten kootaan puheeksi vastaanottavassa matkapuhelimessa.

Modernit TTS-järjestelmät perustuvat puheen dynaamisten piirteiden ja parametrien tilastolliseen mallintamiseen, jolloin tekstistä ennustetaan niiden käyttäytymistä suhteessa tekstin graafisiin symboleihin (kirjaimet ja välimerkit) ja niistä analysoituihin kielellisiin piirteisiin ja rakenteisiin.

Puhesynteesi auttaa kommunikoimaan

Matkapuhelimien takia synteettinen puhe vaikuttaa huomaamatta elämässämme päivittäin. Mutta missä muualla sitä nykyisin hyödynnetään?

Jo aiemmin mainittu Stephen Hawking on hyvä esimerkki siitä, miten hyödyllinen puhesynteesi voi ihmisille olla. ALS-tautia sairastava Hawking ei pysty puhumaan ilman tekstistä puheeksi -synteesijärjestelmää.

Kaupallisessa mielessä TTS-synteesiä voi hyödyntää esimerkiksi verkkolehdissä. Helsingin Sanomien digitilaajat ovat pystyneet kuuntelemaan Hesarin artikkelit selaimessa viime vuoden marraskuusta lähtien. HS ostaa synteesijärjestelmänsä Readspeakerilta, jonka teknologia on nauhoitettuun puheeseen perustuvaa konkatenaatiosynteesiä.

Googlen kääntäjässä on jo pidempään voinut kuunnella käännetyn tekstin. Vielä pidemmälle vastaavan idean on vienyt Microsoft Skype. Skype Translatorin avulla kaksi keskenään vieraskielistä ihmistä voi keskustella synteesin avulla kumpikin omalla kielellään. Kone tunnistaa sanan, kääntää sen toisen keskustelijan kielelle ja lukee sen ääneen. ExtremeTech lehti vertasikin Skypen tulkkia Applen puheohjausjärjestelmä Sirin ja Googlen kääntäjän yhdistelmäksi.

Juttua varten haastateltu Helsingin yliopiston fonetiikan professori Martti Vainio sanoo, että suomalaisen puhesynteesin tutkimus on paradoksaalisesti hyvin pitkällä, mutta kuitenkin vasta alussa. Neutraalia uutispuhetta pystytään hyvin mallintamaan, mutta spontaania keskustelunomaista puhetta ei niinkään.

Aiheeseen liittyvää

Kommentit
  • Koira kesytti ihmisen – ja kesyttää yhä

    Koira on monen paras ystävä, mutta kumpi kesytti kumman?

    Emme enää näe ihmisen ja koiran yhteistä kehitystaivalta pelkästään niin, että ihminen kesytti sudesta itselleen koiran. Voimme nähdä sen myös niin, että koira kehitti ihmisestä itselleen hyvän kumppanin, ja kehittää yhä, kirjoittaa aivotutkija Minna Huotilainen blogissaan.

  • Amputoitu raaja voi aiheuttaa jopa aavekrampin - Eroon aavesäryistä peileillä tai taikasienillä

    Eroon aavesäryistä peileillä tai taikasienillä.

    Ihmisen tuntoaisti on aika uskomaton! Jos henkilö menettää raajansa, kehon osat jatkavat olemassaoloaan aivoissa. Monet kokevat voivansa amputaation jälkeen heilutella olemattomia varpaitaan tai avata kätensä ja niissä voi esiintyä aavesärkyä tai kramppeja, kirjoittaa havaintopsykologi Jukka Häkkinen blogissaan. Kolmivuotias poikani kiipesi illalla syliini halaamaan.

Lue myös - yle.fi:stä poimittua

  • Miksi olemme niin väsyneitä?

    Yksi väsymyksemme aiheuttaja on krooninen varovaisuus.

    "Mä oon ihan vitun väsynyt!" "Haluaisin vain nukkua!" Kuulostaako tutulta? Olemme pisteessä, jossa työikäiset ihmiset haukottelevat enemmän kuin vanhukset. Väsymykselle on monta syytä, mutta esittelen nyt yhden lisää. Se on ilmiö nimeltään krooninen varovaisuus. Kun psykologisia koreografioita ja varovaisuuden askelmerkkejä joutuu tarkkailemaan päivittäin, ihmisestä tulee väsynyt.

  • Mihin sinä uskot? Testaa itsesi!

    Mihin uskot?

    Mihin uskot? Mikä sinulle on elämässä tärkeätä? Mitä arvostat? Testaa itsesi! Testi perustuu professori Tatjana Schnellin pitkäaikaiseen tutkimustyöhön Innsbruckin yliopistossa.

  • Aivotutkija: Nämä viisi asiaa kaipaavat kipeimmin muutosta suomalaisessa työelämässä

    Kiire, uni, tehokkuus, tilat ja verkostotyö.

    Kun aivotutkija päästetään katselemaan suomalaista työelämää, tulee mieleen pitkä lista asioita, jotka kannattaisi muuttaa. Aloitetaan tärkeimmistä, kirjoittaa aivotutkija Minna Huotilainen blogissaan. 1. Kiire ja hoppu pois! Lyhytjänteinen asioista toiseen hyppiminen ja jatkuvat keskeytykset eivät päästä aivoja vakaviin töihin, vaan pitävät meidät lillukanvarsien parissa.

Tiede

  • Kuusi huomiota tulevaisuudesta, joiden ei pitäisi yllättää

    Lauri Reuter kokoaa Global Solutions -ohjelman antia.

    Biotekniikan tohtori ja Prisma Studion asiantuntija Lauri Reuter esittelee blogissaan keskeisimmät havaintonsa Piilaaksosta, jonne eri alojen huiput ovat kokoontuneet ratkomaan ihmiskunnan suurimpia haasteita. "Juuri nyt, enemmän kuin koskaan ennen, on tärkeää nähdä horisontin taakse, ennakoida teknologian kehitystä ja ohjata sitä oikeaan suuntaan."

  • Aivotutkija: Nämä viisi asiaa kaipaavat kipeimmin muutosta suomalaisessa työelämässä

    Kiire, uni, tehokkuus, tilat ja verkostotyö.

    Kun aivotutkija päästetään katselemaan suomalaista työelämää, tulee mieleen pitkä lista asioita, jotka kannattaisi muuttaa. Aloitetaan tärkeimmistä, kirjoittaa aivotutkija Minna Huotilainen blogissaan. 1. Kiire ja hoppu pois! Lyhytjänteinen asioista toiseen hyppiminen ja jatkuvat keskeytykset eivät päästä aivoja vakaviin töihin, vaan pitävät meidät lillukanvarsien parissa.

  • Kukkuuko lapsesi lomalla yömyöhään? Tässä aivotutkijan 5 vinkkiä parempaan uneen

    Oppiminen, mielenterveys ja innostuminen vaativat unta.

    Vuoden valoisin aika ja loma - mikä ihana syy kukkua yömyöhään! Mutta erityisesti lasten unta kannattaa vaalia, sillä puolet oppimisesta tapahtuu nukkuessa. Unta tarvitaan myös hyvän mielenterveyden ylläpitämiseen ja uudesta innostumiseen, kirjoittaa aivotutkija Minna Huotilainen blogissaan. Kouluvuosi on saatu taas päätökseen ja lapset ja nuoret kirmaavat kesälaitumilla.