Hyppää pääsisältöön

Miksi Häkämiehestä tuli Carbon Monoxide Man? Konekäännös tekee virheitä, mutta oppii koko ajan uutta

hämmästynyt mies
hämmästynyt mies Kuva: Mikko Lehtola / Yle, Master1305 / Shutterstock käännösvirheet,kääntäminen

Konekäännös tarjoaa toimitusjohtaja Jyri Häkämiehen sukunimeksi Carbon Monoxide Man. Ruotsin Amazon-kaupassa kukko muuttui kulliksi. Kaikkia naurattaa. Miksi kone kääntää väärin?

Automaattiset käännökset ovat osa arkeamme. Youtube tai Facebook saattavat kääntää tekstejä automaattisesti, ellei tätä säädä omista asetuksistaan.

Kuvakaappaus Facebookista: Venäjänkielinen julkaisu on käännetty automaattisesti kehnonlaiseksi suomeksi.
Facebookin automaattiset käännökset osuvat joskus vähän sinne päin. Kuvakaappaus Facebookista: Venäjänkielinen julkaisu on käännetty automaattisesti kehnonlaiseksi suomeksi. Konekääntäminen

Jos nettiselaimessa tekee haut Googlella – ja niinhän lähes kaikki tekevät – kääntämiseen ei tarvitse edes ohjelmaa tai sovellusta. Google Kääntäjän voi avata suoraan hakutulosten alkuun.

Googlen ääniavustaja Assistantkin osaa jo auttavasti tulkata suomea.

Virheet ovat vähentyneet – eivät loppuneet

Käännösohjelmat – tai konekääntimet, kuten kielen ammattilaiset sanovat – ovat kehittyneet huikeasti viime vuosina.

Hassu Häkämies-käännös on jo mennyttä aikaa. Kun kirjoittaa isoin alkukirjaimin Jyri Häkämies, sekä Googlen että Microsoftin käännösohjelma tunnistaa, että kyseessä on nimi. Googlen algoritmille tämä Häkämies on jo niin tuttu, että nimeä ei tarvitse kirjoittaa edes isoin alkukirjaimin.

Kuvakaappaus Google Kääntäjästä: suomenkielinen Hän on jyri häkämies tunnistaa, että kyseessä on nimi, mutta ei sukua (maskuliini vai feminiini).
Googlen käännöskone tietää, että kyseessä on nimi, mutta ei Jyrin sukupuolta. Kuvakaappaus Google Kääntäjästä: suomenkielinen Hän on jyri häkämies tunnistaa, että kyseessä on nimi, mutta ei sukua (maskuliini vai feminiini). Konekääntäminen

Kun etunimen vaihtaa, kone lähtee väärille teille. Ville häkämiehestä irtoaa jo hupia.

Kuvakaappaus Google Kääntäjästä ja Microsoft Translatorista: teksti Minä olen ville häkämies kääntyy hassusti englanniksi.
Ville häkämies ei ole käännöskoneiden algoritmeille tuttu. Yllä Microsoft Translaten, alla Google Kääntäjän versio. Kuvakaappaus Google Kääntäjästä ja Microsoft Translatorista: teksti Minä olen ville häkämies kääntyy hassusti englanniksi. Konekääntäminen

Konekääntimet tekevät siis yhä virheitä. Ruotsin Amazon-verkkokaupan räikeät virheet on korjattu. Käännöskukkasia on kuitenkin odotettavissa, jos Amazonin kauppa aukeaa myös suomenkielisenä.

Tietokoneella kokonaisia nettisivuja voi kääntää näppärästi suoraan Googlen hakutuloksista. Aina käännöksen laatu ei mairittele, vaikka kyseessä olisivat BBC:n asiapitoiset sivut.

Kuvakaappaus sivulta bbc.co.uk Googlen konekääntämänä, otsikko käsittämätöntä suomea.
Googlen hakeman sivun voi kääntää saman tien. Tässä alkuteksti alkaa I am trapped by my mortgage. Kone ei veny sananlaskuun Olen asuntolainani vanki. Kuvakaappaus sivulta bbc.co.uk Googlen konekääntämänä, otsikko käsittämätöntä suomea. Konekääntäminen

Kone ei kuitenkaan käännä väärin huvikseen tai kiusallaan. Konekäännöksen virheille löytyy joukko selkeitä selityksiä.

Kuusi selitystä sille, miksi kone erehtyy

Tämän listan pohjana on käytetty kieliyritys Lingsoftin Sebastian Anderssonin esitystä.

Andersson vastaa konekäännösten kehityksestä Lingsoftissa. Yrityksellä on oma käännösohjelmansa, joka perustuu suurimmaksi osaksi avoimen lähdekoodin algoritmeihin.

Myös listan englanti > suomi -esimerkit ovat Lingsoftilta.

1. Sama sana tarkoittaa useita asioita ja kone päättelee joskus väärin

Alkuteksti: Do you need assisted support from our advocates?
Kone: Tarvitsetko apua asianajajiltamme?
Oikein: Tarvitsetko tukihenkilön apua?

2. Jos kone kääntää sana sanalta, se ei huomaa kielelle ominaisia piirteitä

Alkuteksti: This is the view from our hotel room window.
Kone: Tämä on näkymä hotellihuoneikkunastamme.
Oikein: Tämä on näkymä hotellihuoneemme ikkunasta.

3. Kone voi tuottaa liikaa tietoa tai jättää sitä pois

Alkuteksti: To avoid excessive unexpected filtration due to fluid leakage from the filter and risk infection in the patient, which are caused by a damaged filter or packaging, do not store the filter in the following locations.
Kone: Älä säilytä suodatinta.

4. Kone saattaa kääntää orjallisesti kaiken, mukaan lukien erisnimet

Alkuteksti: Name: Brown, Charity
Kone: Nimi: Ruskea hyväntekeväisyysjärjestö
Oikein: Nimi: Brown, Charity

5. Kone ei aina ymmärrä kielikuvia ja vastaavia

Alkuteksti: Grab a bite at New Winery tonight!
Kone: Tartu New Wineryn purukumiin tänään!
Oikein: Tervetuloa syömään New Wineryyn!

6. Kone saattaa sekoilla

Joskus konekääntäjän algoritmi menee pahasti solmuun. Silloin tuloksena voi olla käsittämätöntä tajunnanvirtaa:

Alkuteksti: John Byrne
Kone: Matti mikrodiffuusiomenetelmä

Neuroverkkokääntäminen vaatii valtavia aineistoja

Konekääntämisen päämenetelmiä on kaksi. Vanhempi niistä perustuu ihmisen luomiin kielen sääntöihin.

Sebastian Andersson ottaa esimerkiksi englannin lauseen Click the button.

– Koska ensimmäinen sana Click on käskymuodossa, kone tietää, että suomessa seuraavan sanan pitää olla partitiivissa. Ei siis Napsauta painike, vaan Napsauta painiketta.

Uudempi menetelmä perustuu kieliaineistoihin eli suureen määrään kieliä kirjoitettuna, puhuttuna ja käännöksinä. Andersson käyttää aiempaa esimerkkiä:

– Lause Click the button esiintyy aineistossa käännöksinä Napsauta painiketta, Klikkaa painiketta ja Valitse painike. Kone yrittää oppia, missä yhteydessä sen pitäisi käyttää mitäkin näistä.

Lingsoft-kieliyrityksessä konekääntämisen kehityksestä vastaava Sebastian Andersson. Lindh-Knuutila.
Sebastian Andersson vastaa konekääntämisen kehityksestä kieliyritys Lingsoftissa. Lingsoft-kieliyrityksessä konekääntämisen kehityksestä vastaava Sebastian Andersson. Lindh-Knuutila. Kuva: yksityinen Konekääntäminen

Kehittynein aineistoihin perustuva menetelmä on neuroverkkokääntäminen (neural machine translation eli NMT). Esimerkiksi Googlen käännösohjelma on käyttänyt sitä vuodesta 2016.

Siinä aivojen rakenteesta haetaan inspiraatiota syväoppimiseen. Kone oppii malleja, jotka hahmottavat kokonaisuuksia. Neuroverkkokäännin ei siis lue tai kuule sanoja, vaan niiden suhteita toisiinsa. Toki myös yksittäiset sanat pilkotaan palasiksi eli sanan sisäisiksi yksilöiksi.

– Neuroverkkokääntäminen vaatii valtavia aineistomääriä. Mitä enemmän aineistoja on, sitä harvemmin kone tekee virheitä, Lingsoftin Andersson sanoo.

Kone ei ymmärrä runoutta tai kaunokirjallisuutta

Automaattinen konekäännös suoriutuu asiatekstistä usein melko hyvin. Fiktio on toinen asia: mitä enemmän luovuutta tarvitaan, sitä huonompi vaihtoehto konekääntäminen on.

– Kone kyllä kääntää mitä vain, vaikka runon. Useimmat ihmiset eivät kuitenkaan pidä tuloksista, Sebastian Andersson toteaa.

– Miksi käännöskoneen edes pitäisi selvitä runoudesta tai laulun sanoista? hän kysyy.

Konekääntäminen toimii parhaiten silloin, kun kirjaimellinen tai sanatarkka merkitys riittää.

Hassuista automaattikäännöksistä saa toki hupia, jos sellaista haluaa.

Miksi käännöskoneen pitäisi selvitä runoudesta tai laulun sanoista?― Sebastian Andersson, Lingsoft

Onko suomi koneelle vaikea kieli?

Suomalaiset saattavat ajatella, että suomi on erityisen vaikea kieli. Tästä päätellään, että kone tekee virheitä, koska se ei voi selvitä suomen kielen 15 sijamuodosta tai verbien monipuolisista taivutusmuodoista.

Tiina Lindh-Knuutila on Anderssonin kollega Lingsoftista. Hän kumoaa käsityksen vanhentuneena.

– Suomen kielen morfologia eli sanojen taivutus, päätteet ja sanajärjestys on melko monimutkainen. Kielestä riippumattomat algoritmit paranevat kuitenkin koko ajan, myös konekääntämisessä. Haasteet ovat lopulta samoja kaikissa kielissä, ratkaisuarkkitehti Lindh-Knuutila sanoo.

Lingsoft-kieliyrityksen ratkaisuarkkitehti Tiina Lindh-Knuutila.
Tiina Lindh-Knuutila on ratkaisuarkkitehti kieliyritys Lingsoftissa. Lingsoft-kieliyrityksen ratkaisuarkkitehti Tiina Lindh-Knuutila. Kuva: Marko Knuutila Konekääntäminen

Kielten läheisyys vaikuttaa toki käännökseen. Kuten ihminen, konekin suoriutuu paremmin, jos kielipari kuuluu samaan kieliperheeseen. Esimerkiksi espanja ja ranska ovat sukukieliä, samoin suomi ja viro.

Olennaisinta on kuitenkin datan eli kielen aineistojen määrä. Käännösalgoritmien opettamiseen tarvitaan suuria määriä kieltä kirjoitettuna, puhuttuna ja käännettynä. Vasta silloin algoritmit paranevat.

– Suomen kielen aineistojen tilanne on kohtuullisen hyvä, Lindh-Knuutila sanoo.

Suomen aineistot ovat kuitenkin suuresti jäljessä suurista maailmankielistä.

Varsinkin puheaineistoista puuttuu suomalaisten vapaata nykykieltä. Tähän haasteeseen vastaa Ylen ja kumppanien Lahjoita puhetta -hanke. Siihen jokainen voi lahjoittaa omaa puhettaan vapaasti pulisemalla.

Kumpikaan toimii kaksikielinen sana kirjoja, kääntää sanat perustuvat luettelon mahdollisista käännöksistä, mutta kääntää perustuu yhteydessä sana, jota käytetään lause.
― Lause Microsoftin konekääntämistä esitteleviltä konekäännetyiltä sivuilta (2020)

Digitreenien artikkelista löydät vinkkejä puhelimen käännössovellusten käyttöön.

Keskustelu sulkeutuu 22.12.2020.
Keskustele