Hyppää pääsisältöön
Aihesivun Matematiikka pääkuva

Tilastot ja todennäköisyys

Tilasto on taulukossa tai graafisesti esitetty numeerinen kokoelma tietoa, joka perustuu todellisuutta koskeviin havaintoihin. Taulukossa tiedot on usein esitetty järjestyksessä, tavallisesti ajan tai alueen perusteella, tai ryhmiteltynä toistensa poissulkeviin luokkiin.

Suomessa yhteiskuntaoloja koskevia tilastoja ja selvityksiä laatii Tilastokeskus. Tilastotiede käsittelee tilastojen teoriaa ja perustuu todennäköisyyslaskentaan.

Tilastomatematiikka

Tilastotiede perustuu todennäköisyyslaskentaan, ja se tutkii sitä, miten tilastollista tietoa kerätään, käsitellään ja miten siltä pohjalta tehdään päätelmiä. Tilastomatematiikka on matemaattista tilastotiedettä. Kun jotakin ominaisuutta mitataan, mittauksissa saadaan erilaisia arvoja. Kun nämä arvot asetetaan suuruusjärjestykseen ja ne luokitellaan, saadaan tilaston tuloksena muuttujan jakauma. Jakaumia voidaan esittää frekvenssitaulukkoina tai kuvioina. Tärkein tilastotieteessä käytetty todennäköisyysjakauma on normaalijakauma. Sen keksi saksalainen matemaatikko Karl Friedrich Gauss.

Erilaiset tunnusluvut kuvaavat tilaston rakennetta hieman eri näkökulmista. Yksi yleinen tunnusluku on keskiarvo. Valitsemalla eri tunnuslukuja voidaan saada käytettävä aineisto näyttämään hyvinkin erilaiselta.

Normaalijakauma, keskiarvo ja keskihajonta

Normaalijakauma

Normaalijakauma on ehkä tunnetuin sen kuvaajasta, jota kutsutaan Gaussin käyräksi ja kellokäyräksi. Tällä kuvaajalla on keskellä huippu ja se supistuu reunoja kohden. Normaalijakauma kuvaa sitä, miten suuri pinta-ala mahtuu millekin osalle tätä Gaussin käyrää. Tutkijat ovat todenneet, että normaalijakauma kuvaa hyvin monia kiinnostavia ominaisuuksia, kuten ihmis- tai eläinyksilöiden pituutta tai muita ominaisuuksia. Usein erilaisissa testeissä pidetään hyödyllisenä asettaa tutkittavat henkilöt järjestykseen normaalijakauman mukaisesti. Tällöin suurin osa ihmisistä saa tuloksia, jotka ovat lähellä keskiarvoja, ja mitä kauempana keskiarvosta tulos on, sitä harvempi ihminen tämän tuloksen on saanut. Ylioppilaskirjoituksissa pyritään useimmissa aineissa noudattamaan tätä järjestystä. Samoin älykkyysosamäärää kuvataan normaalijakaumalla.

Normaalijakaumaa käytetään yleisesti, mutta sitä on myös kritisoitu ja erityisesti sen käyttöä kuvaamaan sosiologisia suureita on pidetty arveluttavana. Normaalijakauma on vain yksi monista jakaumista, joilla voidaan kuvata erilaisia joukkoja tai tilastoja.

Keskiarvo ja keskihajonta

Normaalijakaumaan liittyy kaksi olennaista arvoa, keskiarvo ja keskihajonta. Keskiarvo kuvaa jakauman huipun arvoa. Keskihajonnalla taas tarkoitetaan sitä, miten leveä käyrä on. Keskihajonnan pienentyessä käyrä myös kapenee. Noin kaksi kolmasosaa kaikista arvoista mahtuu keskihajonnan päähän keskiarvosta. Normitetussa normaalijakaumassa keskiarvo on 0 ja keskihajonta on 1. Tällaisessa tapauksessa siis kaksi kolmasosaa arvoista olisi -1 ja 1 välillä.

Kun normaalijakaumaa käytetään laskuissa, joudutaan käytännössä turvautumaan aina taulukkokirjaan, johon on painettu taulukoita sitä varten. Myös taulukko-ohjelmat pystyvät nykyään laskemaan normaalijakaumaan liittyviä laskuja.

Normaalijakaumaa koskevia laskuja suoritetaan seuraavalla tavalla taulukkokirjan avulla. Tutkitaan normitettua normaalijakaumaa, sen keskiarvo on siis 0 ja keskihajonta 1. Taulukkoon on merkitty todennäköisyyksien arvoja sille, että saadaan muuttujan arvoa pienempi arvo. Sitä kuvataan seuraavasti:

Matemaattinen kaava
Matemaattinen kaava

Funktiota kuvaava merkki on kreikankielen aakkonen fii ja funktion arvon voi lukea suoraan taulukkokirjasta. Normaalijakaumassa todennäköisyys, että päädyttäisiin yhteen tiettyyn arvoon ajatellaan nollaksi. Näin ollen ei ole merkitystä onko muuttuja pienempi vai pienempi tai yhtäsuuri.

Tilastotiede, normittaminen

Usein puolenkaan hajonnan välein taulukoidut todennäköisyydet eivät anna riittävän tarkkaa likiarvoa. Kertymäfunktion arvot on laskettu sellaiselle normaalijakaumalle, jonka keskiarvo on 0 ja keskihajonta 1. Muuttuja x normitetaan kaavalla z = poikkeama keskiarvosta jaettuna keskihajonnalla.

Tilastoihin liittyviä termejä ja diagrammeja

Erilaiset tavat kuvata muuttujan arvojen lukumäärää on hyvä kirjoittaa taulukkona.

  • Frekvenssi (f) kuvaa muuttuja arvon lukumäärää.
  • Suhteellinen frekvenssi ( f %) kuvaa muuttujan arvon prosenttiosuutta.
  • Summafrekvenssi (sf) kuvaa tiettyyn muuttujan arvoon mennessä kertyneet havaintojen määrää.
  • Suhteellinen summafrekvenssi (sf %) kuvaa summafrekvenssin prosentteina.

Erilaiset tunnusluvut kuvaavat tilaston rakennetta hieman eri näkökulmista. Valitsemalla eri tunnuslukuja voidaan saada käytettävä aineisto näyttämään hyvinkin erilaisilta. Siksi on tärkeää ymmärtää tunnuslukujen eroja.

  • Keskiarvo on ehkä yleisin tunnusluku. Keskiarvo saadaan laskemalla saadut arvot yhteen ja jakamalla se havaintojen lukumäärällä.
  • Moodia (Mo) kutsutaan myös tyyppiarvoksi. Se on aineiston yleisin muuttujan arvo. Sillä on siten myös suurin frekvenssi.
  • Mediaani (Me) saadaan asettamatta aineisto suuruusjärjestykseen ja etsimällä sitten järjestyksessä keskimmäinen luku. Jos aineistossa on parillinen määrä havaintoja, lasketaan keskiarvo kahdesta keskellä olevasta arvosta. Mediaani on se arvo, jonka kohdalla suhteellinen summafrekvenssi ylittää arvon 50%.

Tilastoja tehdessä on usein hyödyllistä esittää ainakin nämä kolme arvoa. Jos tilasto muistuttaa normaalijakaumaa, nämä kolme arvoa ovat lähellä toisiaan, mutta aina näin ei ole. On kiinnostavaa ja hyödyllistä pohtia millaisissa tilastoissa arvot eroavat toisistaan milläkin tavalla.

Kaikista tilastoista ei ole mielekästä esittää näitä tilastoja. Jos tilasto kertoo vaikka lempiruuan, ei varmaan kannata laskea keskiarvoa tai mediaania, sillä ruokalajeille ei voida antaa numeroarvoja tai niitä ei voida laittaa suuruusjärjestykseen. Joskus tilastossa on paljon erilaisia muuttujan arvoja portaattomalla asteikolla. Tällainen tilasto voisi kuvata vaikka ihmisten pituuksia tai ulkolämpötiloja. Tällöin on mielekästä jakaa alue pienempiin osiin. Jos tällaisesta tilastosta sitten lasketaan tunnuslukuja, ei joskus ole enää mahdollista käyttää alkuperäisiä, tarkkoja arvoja. Tällöin voidaan korvata kullekin välille osuvat arvot kyseisen välin päätepisteiden keskiarvolla. Tilastosta tulee tällöin epätarkempi, mutta suurilla joukoilla ja hyvin valituilla jakoväleillä ero ei ole liian suuri.

Erilaisia diagrammeja

Aina piirrettäessä tilastoja kuvaava diagrammi, on syytä esittää tilasto huolellisesti taulukkona. Nykyään on käytettävissä nopeita ja helppokäyttöisiä taulukko-ohjelmia, mutta on hyödyllistä osata piirtää kuvaajia myös käsin. Paraskin ohjelma on hyödytön, jos sen käyttäjä ei tiedä mitä termeillä tarkoitetaan. Diagrammeihin on tärkeää merkitä huolellisesti käytetyt yksiköt.

1. Pistediagrammi

Pistediagrammi kuvaa tyypillisesti arvojen kehitystä. Pistediagrammilla voidaan nopeasti osoittaa, miten muuttujan arvot ajan kuluessa muuttuneet, joten sitä käytetään yleisesti kuvaamaan esimerkiksi talouden tai sääolojen muutoksia.

Matemaattinen kaava
Matemaattinen kaava

Matemaattinen kaava
Matemaattinen kaava

2. Pylväsdiagrammi

Pylväsdiagrammi kuvaa tyypillisesti erilaisten arvojen saamia frekvenssejä. Sen avulla on toisaalta helppo nähdä arvojen kokoeroja, mutta tarvittaessa siitä näkee myös ryhmän saaman absoluuttisen arvon. Pylväsdiagrammeja käytetään paljon esimerkiksi kuvaamaan talouden tai politiikan kokosuhteita. Niiden avulla on myös helppo kuvata tilannetta, jossa jaettava osuus muuttuukin.

Pohjoismaiden asukasluvut:

Matemaattinen kaava
Matemaattinen kaava

Matemaattinen kaava
Matemaattinen kaava

(Lähde: Nordea 10.12.2007)

3. Ympyrädiagrammi

Ympyrädiagrammi kuvaa erilaisten arvojen suhteellisia kokoja. Usein ympyrädiagrammiin merkitäänkin vain eri arvojen prosentuaalinen osuus. Tämä diagrammi osoittaa nopeasti ja iskevästi arvojen osuuksien suhteet. Ympyrädiagrammia piirtäessä kukin arvo saa itselleen ympyrästä sektorin, jonka kulman suuruus saadaan kertomalla 360º arvon frekvenssiprosentilla.

Matemaattinen kaava
Matemaattinen kaava

Matemaattinen kaava
Matemaattinen kaava

Treenaa:

Normaalijakauma: laskuesimerkki
Normaalijakauma: älykkyystesti
Normaalijakauma: pullat
Tilastot: termit ja diagrammit
Tilastomatematiikka: normittaminen
Tilastomatematiikka: normaalijakauma
Tilastomatematiikan peruskäsitteitä
Tilastomatematiikka: keskiarvo ja keskihajonta