Hyppää pääsisältöön

Keinotekoinen puhe pelasti Stephen Hawkingin – pian kone korvaa myös vajaat kielitaitosi

Fyysikko Stephen Hawking Teneriffan Starmus Festivaalilla vuonna 2014
Fyysikko Stephen Hawking Starmus-festivaaleilla Teneriffalla vuonna 2014. Fyysikko Stephen Hawking Teneriffan Starmus Festivaalilla vuonna 2014 Kuva: Cristobal Garcia / EPA Stephen Hawking,keinotekoinen puhe

Miltä kuulostaisi arki, jossa kaikki lehdet ja kirjat voisi kuunnella ja jokaista kieltä puhuva tulkki löytyisi taskustasi? Tekstistä puheeksi -synteesijärjestelmät ovat melkein tehneet näistä totta. Keinotekoisen puheen historia alkoi jo 1700-luvulla. Tiedeykkönen selvitti, miten tähän on päädytty.

Aiheeseen kuuluvasti koko tämän jutun voi lukemisen sijaan myös kuunnella. Alla on kaksi erilaista synteesiä, joista toinen perustuu yhden ihmisen ääneen, toinen useamman kymmenen äänen keskiarvoon. Puheet on tuotettu helsinkiläisen Lausumo Oy:n synteesijärjestelmällä. Yrityksessä on mukana tutkijoita Helsingin yliopistosta ja Aalto-yliopistosta.


Yli kaksisataa vuotta sitten eläneet Christian Gottlieb Kratzenstein ja Wolfgang von Kempelen olivat puheen mallintamisen pioneereja. Kumpikin onnistui kehittämään ihmisen puheentuottoa imitoivat kojeet jo 1700-luvun lopulla.

Von Kempelenin uran ansioluetteloon kuului mekaaninen turkkilainen, ammattilaisen ottein pelaava sakkikone. Ajatteleva turkkilaisen näköinen nukke pieksi hyviä pelaajia sakkilaudalla, joka oli asetettu isohkon pöydän päälle. Todellisuudessa onton pöydän sisällä oli nerokkaasti shakkia pelaava kääpiö, joka ohjaili turkkilaista. Motivaationa tälle petokselle oli tehdä vaikutus Itävallan keisarinnaan Maria Teresiaan.

Turkkilainen oli ehkä merkittävä ja koominen huijaus, mutta puhekone oli oikeasti merkittävä keksintö. Von Kempelenin mallissa ihmisen ääntöelimistöä oli mallinnettu muun muassa palkeilla ja nahasta tehdyllä putkella. Joitakin konsonantteja oli mahdoton muodostaa, mutta silti sillä sai aikaan lauseitakin.

Vaikka mekaaniset puhekoneet jäivät unholaan, Japanissa aluetta tutkitaan ja kehitetään yhä, sillä japanilaiset ovat kiinnostuneita mekaanisen puheentuoton yhdistämisestä robotteihin.

Elektroniset syntetisaattorit sodassa

Bell Labs esitteli New Yorkin maailmannäyttelyssä vuonna 1939 Voder-nimisen laitteen. Voder on tiettävästi ensimmäinen puhetta elektronisesti tuottava laite. Voderin kehitti yhdysvaltalainen Homer Dudley.


Puheen elektroninen imitointi oli mullistava harppaus, vaikka Voder itsessään ei ollut vielä kovin kätevä vekotin. Se oli ikään kuin kosketinsoitin ja sen käyttäjät muusikoita. Voderia ei pystynyt käyttämään ilman kunnollista koulutusta.

Dudley jatkoi puhesyntetisaattoriensa kehittelyä, ja toisen maailmansodan aikana niistä kiinnostui yhdysvaltain sotakoneisto. Kun amerikkalaiset tajusivat, että natsit saavat murrettua Franklin D. Rooseveltin ja Winston Churchillin väliset keskustelut, Dudley pyydettiin apuun. Hänen vokooderinsa avustuksella valtiomiehet saattoivat keskustella tunnistamattomina.

Syntesointi digitalisoituu

Viime vuosisadalla keinotekoisen puheen tuottaminen digitalisoitui. Digitalisaatio on mahdollistanut Text-to-speech (TTS) eli tekstistä puheeksi -järjestelmien kehittämisen. Tähän teknologiaan tämänkin artikkelin kuunteluominaisuus perustuu.

TTS-teknologiassa kone osaa prosessoida tekstin ja sen jälkeen lukea sen ääneen eli muodostaa tekstin pohjalta puhesynteesin. Ensimmäinen vaihe tässä tapahtumasarjassa on tekstin putsaaminen, sillä esimerkiksi lyhenteet täytyy avata ja numerot muuttaa lukusanoiksi.

Teksti analysoidaan ja muutetaan äänteiksi, jotta puhesynteesi olisi mahdollisimman ymmärrettävä. Tätä voisi verrata vieraan kielen opiskeluun, jolloin puhtaan lausumisen tavoittelussa täytyy monesti tuijottaa hakasulkeissa olevia ääntämisohjeita.

Tekstin voi muuntaa puheeksi monella tavalla

Yksinkertaisin ja yleisin käytössä oleva tapa tuottaa varsin luonnollisen kuuloista puhetta on niin sanottu konkatenaatiomalli. Se eroaa selvästi aiemmin mainituista vokoodereista ja mekaanisista puhekoneista, sillä se perustuu oikeaan nauhoitettuun puheeseen. Suuri määrä äänitettyä puhetta pilkotaan äänteiksi, joista voi muodostaa kulloinkin halutun tekstin puhesynteesin. Kyse on siis tiedonhausta.

Vokooderiin perustuvat synteesijärjestelmät mullistuivat 1950-luvulla. Tällöin keksittiin puheentuoton akustinen teoria, jonka mukaan puheesta voidaan erottaa ääntä tuottava lähde (äänihuulet) ja ääntä suodattava osa (ääntöväylä) toisistaan.

Tiedonhakuun perustuvalla leikkaa–liimaa-tekniikalla saa yksinkertaisesti luonnollisen kuuloista puhetta.

Tämän myötä keksittiin akustiseen teoriaan perustuva formanttisyntetisaattori, jollaista esimerkiksi fyysikko Stephen Hawking käyttää. Systeemi on kevyt ja personoitava, koska se perustuu puheen akustisten muuttujien käyttäytymiseen, ei isoon äänimassaan. Malleja muuttamalla kone voidaan laittaa vaikka huutamaan.

Tässä synteesijärjestelmässä on sama idea kuin GSM-puhelimissa: puheesta poimitaan tiettyjä piirteitä. GSM-verkossa ei lähetetä ääntä vaan näitä puheen piirteitä, jotka sitten kootaan puheeksi vastaanottavassa matkapuhelimessa.

Modernit TTS-järjestelmät perustuvat puheen dynaamisten piirteiden ja parametrien tilastolliseen mallintamiseen, jolloin tekstistä ennustetaan niiden käyttäytymistä suhteessa tekstin graafisiin symboleihin (kirjaimet ja välimerkit) ja niistä analysoituihin kielellisiin piirteisiin ja rakenteisiin.

Puhesynteesi auttaa kommunikoimaan

Matkapuhelimien takia synteettinen puhe vaikuttaa huomaamatta elämässämme päivittäin. Mutta missä muualla sitä nykyisin hyödynnetään?

Jo aiemmin mainittu Stephen Hawking on hyvä esimerkki siitä, miten hyödyllinen puhesynteesi voi ihmisille olla. ALS-tautia sairastava Hawking ei pysty puhumaan ilman tekstistä puheeksi -synteesijärjestelmää.

Kaupallisessa mielessä TTS-synteesiä voi hyödyntää esimerkiksi verkkolehdissä. Helsingin Sanomien digitilaajat ovat pystyneet kuuntelemaan Hesarin artikkelit selaimessa viime vuoden marraskuusta lähtien. HS ostaa synteesijärjestelmänsä Readspeakerilta, jonka teknologia on nauhoitettuun puheeseen perustuvaa konkatenaatiosynteesiä.

Googlen kääntäjässä on jo pidempään voinut kuunnella käännetyn tekstin. Vielä pidemmälle vastaavan idean on vienyt Microsoft Skype. Skype Translatorin avulla kaksi keskenään vieraskielistä ihmistä voi keskustella synteesin avulla kumpikin omalla kielellään. Kone tunnistaa sanan, kääntää sen toisen keskustelijan kielelle ja lukee sen ääneen. ExtremeTech lehti vertasikin Skypen tulkkia Applen puheohjausjärjestelmä Sirin ja Googlen kääntäjän yhdistelmäksi.

Juttua varten haastateltu Helsingin yliopiston fonetiikan professori Martti Vainio sanoo, että suomalaisen puhesynteesin tutkimus on paradoksaalisesti hyvin pitkällä, mutta kuitenkin vasta alussa. Neutraalia uutispuhetta pystytään hyvin mallintamaan, mutta spontaania keskustelunomaista puhetta ei niinkään.

Aiheeseen liittyvää

Kommentit

Lue myös - yle.fi:stä poimittua

Uusimmat sisällöt - Tiede