3 Tilastollisia tunnuslukuja

3.1 Johdanto

Tämän kurssin esitietovaatimuksiin kuuluvilla kursseilla on tutustuttu muutamien yksinkertaisten empiiristen tilastollisten tunnuslukujen laskentaan yksitulotteiseen havaintoaineistoon perustuen. Näiden laskenta on pääosin hyvin suoraviivaista annetusta aineistosta. Empiiriset tunnusluvut antavat myös usein hyvän estimaatin kiinnostuksen kohteena olevista teoreettisista (todellisista?) tunnusluvuista, vaikka varsinainen taustalla oleva (teoreettinen) jakauma - tai laajemmin dataa generoiva mekanismi - olisikin täysin tuntematon.

Tunnusluvut on kuitenkin usein mahdollista myös laskea tarkasti teorian keinoin kunhan taustalla oleva tai oletettu satunnaismuuttujan todennäköisyysjakauma tunnetaan. Tunnuslukujen teoreettinen laskenta voi olla myös tarpeen tilanteissa, joissa havaintoaineistoa ei ole ollenkaan saatavilla - eikä simulointia voida jostain syystä toteuttaa.

Yksiulotteisen satunnaismuuttujan tapauksessa kiinnostuksen kohteena on pääosin erilaiset keskimääräisyyttä ja vaihtelua kuvaavat tunnusluvut, erityisesti odotusarvo ja varianssi tai sen vastinpari, keskihajonta. Kiinnostuksen kohteena voi olla myös vastaavat tunnusluvut jollekin alkuperäisestä jakaumasta johdetuille muuttujille, esimerkiksi neliöidyn muuttujan odotusarvo. Joskus kiinnostuksen kohteena on myös jakauman muotoa kuvaavat tunnusluvut vinous ja kurtoosisuus.

3.2 Odotusarvo

Odotusarvo on tyypillisin keskimääräisyyttä ilmaiseva tunnusluku, siitäkin huolimatta, että odotusarvo ei ehkä kaikissa tapauksissa edustakaan keskimääräisyyttä käytännön näkökulmasta kovin hyvin. Odotusarvon käyttöä puoltaa se, että odotusarvolla on monia edullisia teoreettisia ominaisuuksia, jonka lisäksi odotusarvon laskenta on useimmiten suoraviivaisempaa verrattuna esimerkiksi mediaaniin. Seuraavassa määritellään odotusarvo diskreetille ja jatkuvalle satunnaismuuttujalle sekä käydään läpi odotusarvon joitakin ominaisuuksia.

Diskreetin satunnaismuuttujan odotusarvo satunnaismuuttujalle \(X\) voidaan laskea kaavasta \[E(X)=\sum_i x_ip_i,\] jossa \(x_1,x_2,...\) ovat satunnaismuuttujan \(X\) mahdollisia arvoja ja \(p_1,p_2,...\) ovat näihin liittyviä todennäköisyyksiä.

Jatkuvan satunnaismuuttujan odotusarvo satunnaismuuttujalle \(X\) voidaan laskea kaavasta \[E(X)=\int_{-\infty}^{\infty} x f(x)dx,\] jossa \(f(x)\) kertoo kertoo satunnaismuuttujan \(X\) arvoon \(x\) liittyvän tiheysfunktion arvon.

Näiden määritelmien kohdalla kannattaa kuitenkin huomata, että joissain harvinaisissa tilanteissa nämä määritelmät eivät anna tulokseksi mitään selkeää lukuarvoa. Tällöin sanotaan, että odotusarvoa ei ole olemassa (ks. esimerkki).

Odotusarvon painopistetulkinta
Odotusarvolla on fysikaalinen tulkinta jakauman painopisteenä. Diskreetin jakauman tapauksessa odotusarvo kertoo sellaisen systeemin painopisteen, jossa diskreetteihin pisteisiin on asetettu pistetodennäköisyyksien suuruiset painot. Jatkuvan satunnaismuuttujan tapauksessa tulkinta on aivan vastaava. Tämä painopistetulkinta mahdollistaa odotusarvon määrittämisen puhtaalla päättelyllä täysin ilman laskentaa joissakin tapauksissa.

3.2.1 Odotusarvon käytännön laskennasta

Diskreetin satunnaismuuttujan tapauksessa odotusarvon laskennassa voidaan joutua käyttämään erilaisia summakaavoja mikäli kyseessä ei ole yksinkertainen tilanne. Erilaisista summakaavoista huolimatta odotusarvolaskusta ei välttämättä aina saada tulokseksi mitään yksinkertaista lukuarvoa tai muuten suljettua muotoa olevaa "siistiä" tulosta ja tulos voi näyttää jollakin tavalla “keskeneräiseltä”.

Esimerkki 3.2.1.1: diskreetin satunnaismuuttujan odotusarvon laskenta
Laske satunnaismuuttujan \(X\) odotusarvo, kun satunnaismuuttujan \(X\) jakauma \(P(X=x_i)\) noudattaa seuraavaa taulukoitua diskreettiä jakaumaa \[ \left[ \begin{array}{c\|ccc} x_{i} & 1 & 2 & 3\\ \hline p_{i} & \frac{1}{10} & \frac{3}{10} & \frac{6}{10} \end{array} \right] \] Ratkaisu: käyttämällä diskreetin satunnaismuuttujan odotusarvon määritelmää \(E(X)=\sum_i x_ip_i,\) saadaan odotusarvoksi \(E(X)=\sum_i x_ip_i,=1*\frac{1}{10} +2*\frac{3}{10}+ 3*\frac{6}{10}=2.5\).

Jatkuvan satunnaismuuttujan tapauksessa odotusarvo lasketaan integraalina, jonka laskenta muuttuu usein helposti hankalaksi muissa, kuin yksinkertaisissa tapauksissa. Odotusarvon laskennassa joudutaankin usein käyttämään ulkoisia apuneuvoja esimerkiksi ohjelmistoja tai integraattoreita samalla tavalla kuin kertymäfunktion laskennassa.

Esimerkki 3.2.1.2: jatkuvan satunnaismuuttujan odotusarvon laskenta
Laske \(Tas[0,1]\) jakauman odotusarvo.
Ratkaisu: tasajakauman tiheysfunktio \(f(x)=1\), kun \(0\leq x \leq 1\) ja muutoin nolla. Käyttämällä jatkuvan satunnaismuuttujan odotusarvon määritelmää \(E(X)=\int_{-\infty}^{\infty} x f(x)dx,\) saadaan odotusarvoksi \(E(X)=\int_0^1 x dx=F(1)-F(0)\), jossa funktio \(F(x)=x^2/2\) on funktion \(x\) integraalifunktio. Tulokseksi saadaan siis \(E(X)=1^2/2-0^2/2=1/2\).

3.2.2 Odotusarvon ominaisuuksia

Seuraavassa luetellaan muutamia odotusarvon yleisiä ominaisuuksia, jotka pätevät riippumatta siitä onko kyseessä diskreetti vai jatkuva satunnaismuuttuja.

Vakion odotusarvo
\[E(c)=c\] eli kun satunnaismuuttuja on deterministisesti vakio, niin sen odotusarvo on luonnollisesti tämä vakioarvo.

Odotusarvon lineaarisuus

  1. \(E(X+c)=E(X)+c\): kun satunnaismuuttujaan lisätään jokin vakio (eli tehdään ns. “shiftaus”), niin odotusarvo siirtyy tämän (shiftaus)vakion verran

  2. \(E(X+Y)=E(X)+E(Y)\): satunnaismuuttujien summan odotusarvo on odotusarvojen summa. Huomaa, että tässä ei ole satunnaismuuttujien \(X\) ja \(Y\) riippuvuudelle tai riippumattomuudelle mitään ehtoja

  3. \(E(aX)=aE(X)\) : kun satunnaismuuttujaa kerrotaan vakiolla (eli tehdään ns. “skaalaus”), niin odotusarvo muuttuu (skaalaus)vakion verran.

Yhdistämällä kaikki edellämainitut saadaan:

\(E(a_1X_1+a_2X_2+...+a_nX_n+c)=\sum_i a_iE(X_i)+c\)

Odotusarvon epäyhtälöominaisuus
Jos satunnaismuuttujille \(X\) ja \(Y\) on voimassa \(X \leq Y\), niin odotusarvoille pätee tällöin \(E(X) \leq E(Y).\)

3.2.3 Muunnoksen odotusarvo

Jos satunnaismuuttujaan \(X\) kohdistetaan funktio \(g(\cdot)\), niin muunnetun satunnaismuuttujan \(g(X)\) odotusarvo voidaan laskea seuraavilla kaavoilla riippuen taustalla olevan satunnaismuuttujan luonteesta

Diskreetti satunnaismuuttuja: \[E(g(X))=\sum_i g(x_i)p_i,\] jossa \(g(x_1),g(x_2),...\) ovat satunnaismuuttujan \(g(X)\) mahdollisia arvoja ja \(p_1,p_2,...\) ovat näihin liittyviä todennäköisyyksiä.

Jatkuva satunnaismuuttuja: \[E(g(X))=\int g(x) f(x)dx,\] jossa \(f(x)\) kertoo kertoo satunnaismuuttujan \(X\) arvoon \(x\) liittyvän tiheysfunktion arvon, ja \(g(x)\) on funktion \(g\) arvo kohdassa \(x\).

Tyypillisiä muunnoksia, joita tarvitaan usein ainakin teoreettisemmissa laskuissa sekä silloin tällöin käytännön laskuissakin ovat esimerkiksi

Huomattavaa: tyyppivirhe muunnoksen odotusarvojen laskemisessa on sanoa virheellisesti ja täysin ilman perusteluja, että \(E(g(X))=g(E(X))\) eli esimerkiksi funktion \(g(x)=x^2\) tapauksessa, että \(E(X^2)=(E(X))^2\). Tämä on yleisesti ottaen väärin ja tähän väärään tulokseen on hyvin helppo keksiä vastaesimerkkejä.

Esimerkki 3.2.3.1: diskreetin satunnaismuuttujan muuunnoksen odotusarvon laskenta (jatkoa aiemmalle)
Laske satunnaismuuttujan \(X^2\) odotusarvo, kun satunnaismuuttujan \(X\) jakauma \(P(X=x_i)\) noudattaa seuraavaa taulukoitua diskreettiä jakaumaa \[ \left[ \begin{array}{c|ccc} x_{i} & 1 & 2 & 3\\ \hline p_{i} & \frac{1}{10} & \frac{3}{10} & \frac{6}{10} \end{array} \right] \] Ratkaisu: käyttämällä diskreetin satunnaismuuttujan odotusarvon muunnoksen määritelmää \(E(g(X))=\sum_i g(x_i)p_i,\) saadaan odotusarvoksi \(E(X^2)=\sum_i x_i^2p_i,=1^2*\frac{1}{10} +2^2*\frac{3}{10}+ 3^2*\frac{6}{10}=6.7\).

Esimerkki 3.2.3.2: jatkuvan satunnaismuuttujan muunnoksen odotusarvon laskenta (jatkoa aiemmalle)
Laske satunnaismuuttujan \(X^2\) odotusarvo, kun satunnaismuuttujan \(X\) tiheysfunktio \(f(x)=1\), kun \(0\leq x \leq 1\) ja muutoin nolla.
Ratkaisu: käyttämällä jatkuvan satunnaismuuttujan odotusarvon muunnoksen määritelmää \(E(g(X))=\int_{-\infty}^{\infty} g(x) f(x)dx,\) saadaan odotusarvoksi \(E(X^2)=\int_0^1 x^2*1dx=F(1)-F(0)\), jossa funktio \(F(x)=x^3/3\) on funktion \(x^2\) integraalifunktio. Tulokseksi saadaan siis \(E(X^2)=1^3/3-0^3/3=1/3\).

3.3 Varianssi

Satunnaismuuttujan \(X\) varianssi \(Var(X)\) määritellään satunnaismuuttujan luonteesta riippumatta odotusarvona \[Var(X)=E(X-E(X))^2.\]

Tämä voidaan edelleen kirjoittaa teoreettisesti yhtäpitävään muotoon \[Var(X)=E(X^2)-(E(X))^2 \quad \quad (\text{Steinerin varianssisääntö})\]

3.3.1 Diskreetin satunnaismuuttujan varianssi

Kun diskreetin satunnaismuuttujan odotusarvo \(\mu\) on olemassa, niin odotusarvo voidaan laskea seuraavasta:

\[Var(X)=\sum_i(x_i-\mu)^2 p_i,\] jossa \((x_1-\mu)^2,(x_2-\mu)^2,...\) ovat satunnaismuuttujan \(X\) mahdollisisten arvojen neliöityjä poikkeamia odotusarvostaan \(\mu\) ja \(p_1,p_2,...\) ovat tapahtumiin \(x_i\) liittyviä todennäköisyyksiä.

Soveltamalla em. Steinerin sääntöä diskreetin satunnaismuuttujan varianssi voidaan kirjoittaa myös muotoon \[Var(X)=\left(\sum_i x_i^2p_i \right)-\mu ^2.\]

Esimerkki 3.3.1.1: diskreetin satunnaismuuttujan varianssin laskenta (jatkoa aiemmalle) Laske satunnaismuuttujan \(X\) varianssi, kun satunnaismuuttujan \(X\) jakauma \(P(X=x_i)\) noudattaa seuraavaa taulukoitua diskreettiä jakaumaa \[ \left[ \begin{array}{c\|ccc} x_{i} & 1 & 2 & 3\\ \hline p_{i} & \frac{1}{10} & \frac{3}{10} & \frac{6}{10} \end{array} \right] \]
Ratkaisu: käyttämällä diskreetin satunnaismuuttujan varianssin määritelmää \(Var(X)=\sum_i (x_i-\mu)^2p_i,\) ja sijoittamalla aiemmin laskettu odotusarvo \(\mu=2.5\) saadaan odotusarvoksi \(Var(X)=\sum_i (x_i-\mu)^2p_i= (1-2.5)^2*\frac{1}{10} +(2-2.5)^2*\frac{3}{10}+ (3-2.5)^2*\frac{6}{10}=0.45\)

3.3.2 Jatkuvan satunnaismuuttujan varianssi

Jatkuvan satunnaismuuttujan varianssin voidaan laskea kaavasta \[Var(X)=\int (x-\mu)^2 f(x)dx,\] jossa \(f(x)\) kertoo kertoo satunnaismuuttujan \(X\) arvoon \(x\) liittyvän tiheysfunktion arvon ja \((x-\mu)^2\) kertoo pisteen \(x\) neliöetäisyyden satunnaismuuttujan \(X\) odotuarvosta \(\mu\). Soveltamalla em. Steinerin sääntöä jatkuvan satunnaismuuttujan varianssi voidaan kirjoittaa myös muotoon \[Var(X)=\int x^2 f(x)dx-\mu ^2.\]

Esimerkki 3.3.2.1: jatkuvan satunnaismuuttujan varianssin laskenta (jatkoa aiemmalle)
Laske \(Tas[0,1]\) jakauman varianssi.
Ratkaisu: tasajakauman tiheysfunktio \(f(x)=1\), kun \(0\leq x \leq 1\) ja muutoin nolla. Käyttämällä jatkuvan satunnaismuuttujan varianssin määritelmää \(Var(X)=\int_{-\infty}^{\infty} (x-\mu)^2 f(x)dx\) ja sijoittamalla aiemmin laskettu odotusarvo \(\mu=0.5\) saadaan odotusarvoksi \(Var(X)=\int_0^1 (x-0.5)^2*1dx=F(1)-F(0)\), jossa funktio \(F(x)=\frac{4x^3-6x^2+3x}{12}\) on funktion \((x-0.5)^2*1\) integraalifunktio. Tulokseksi saadaan siis \(Var(X)=\frac{4*1^3-6*1^2+3*1}{12}-\frac{4*0^3-6*0^2+3*0}{12}=\frac{1}{12}\).

3.3.3 Varianssin ominaisuuksia

Vakion varianssi \[Var(c)=0\] eli kun satunnnaismuuttuja on deterministisesti vakio, niin sen varianssi on nolla - muuttujalla ei ole vaihtelua.

Shiftatun satunnaismuuttujan varianssi: \[Var(X+c)=Var(X)\] eli kun satunnaismuuttujaan lisätään jokin vakio eli tehdään shiftaus, niin varianssi pysyy muuttumattomana.

Skaalatun satunnaismuuttujan varianssi: \[Var(aX)=a^2 Var(X)\] eli kun satunnaismuuttujaa skaalataan (kerrotaan) vakiolla, niin skaalatun satunnaismuuttujan varianssi saadaan skaalaamalla alkuperäinen varianssi skaalatekijän neliöllä.

Summan varianssi

  1. Kahden korreloimattoman satunnaismuuttujan summan varianssi  Mikäli satunnaismuuttujien \(X\) ja \(Y\) kovarianssille \(Cov(X,Y)=E\left( (X-E(X)) (Y-E(Y))\right)\) on voimassa \(Cov(X,Y)=0\), niin \[Var(X+Y)=Var(X)+Var(Y)\]
  2. Kahden yleisen satunnaismuuttujan summan varianssi
    \(Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)\), jossa \(Cov(X,Y)\) on satunnaismuuttujien \(X\) ja \(Y\) välinen kovarianssi \(Cov(X,Y)=E\left( (X-E(X)) (Y-E(Y)) \right)\)
  3. Useamman skaalatun ja korreloimattoman satunnaismuuttujan summan varianssi:
    Kun satunnaismuuttujat \(X_1,\ldots,X_n\) ovat korreloimattomia, niin \[Var(a_1X_1+a_2X_2+...+a_nX_n)=\sum_{i=1}^na_i^2Var(X_i)\]
  4. Useamman skaalatun ja yleisen satunnaismuuttujan summan varianssi:
    \[Var(a_1X_1+a_2X_2+...+a_nX_n)=\sum_{i=1}^na_i^2Var(X_i)+2\sum_{1 \leq i < j\leq n}a_ia_jCov(X_i,X_j)\]

Huomaa erityisesti, että kohdissa 1 ja 3 tarvittiin vain korreloimattomuusehto, joka on pienempi ehto kuin riippumattomuus. Mikäli muuttujat ovat riippumattomia, niin tästä seuraa automaattisesti korreloimattomuus.

3.4 Vinous

Vinous on tilastollinen tunnusluku, joka kertoo jakauman epäsymmetrisyydestä suhteessa odotusarvoon.

Vinous \(\gamma_1\) määritellään odotusarvona \[\gamma_1=E\left[\left(\frac{X-E(X)}{\sigma}\right)^3\right]=\frac{E\left((X-E(X))^3\right)}{\sigma^3},\] jossa \(\sigma\) on satunnaismuuttujan keskihajonta, eli varianssin neliöjuuri.

Vinouden lukuarvon etumerkistä riippuen vinoutta sanotaan

  • Negatiivisesti vinoksi. Tällöin yksihuippuisella jakaumalla nähdään usein pitkä vasen “häntä”, jolloin voidaan käyttää termiä ‘vasemmalle vino’
  • Positiivisesti vinoksi. Tällöin yksihuippuisella jakaumalla nähdään usein pitkä oikea “häntä”, jolloin voidaan käyttää termiä ‘oikealle vino’
  • Mikäli vinous on nolla tai lähellä nollaa, niin jakauma on symmetrinen.

Vinouden tutkiminen on tarpeen esimerkiksi eräissä epäparametrisissa tilastollisissa testeissä, jotka olettavat havaintojen olevan peräisin symmetrisestä jakaumasta.

Esimerkki 3.4.1: diskreetin satunnaismuuttujan vinouden laskenta  Laske satunnaismuuttujan \(X\) vinous, kun satunnaismuuttujan \(X\) jakauma \(P(X=x_i)\) noudattaa seuraavaa taulukoitua diskreettiä jakaumaa \[ \left[ \begin{array}{c\|ccc} x_{i} & -1 & 0 & 1\\ \hline p_{i} & \frac{2}{10} & \frac{6}{10} & \frac{2}{10} \end{array} \right] \]
Ratkaisu: jakauman odotusarvoksi saadaan \(E(X)=0\), joko suoraan laskemalla tai päättelemällä tämä painopistetulkinnasta. Nyt \(E((X-(E(X))^3)=E(X^3)=(-1)^3*2/10+0^3*6/10+(1^3)*2/10=0\). Vinoudeksi saadaan siis näin ollen \(0\). Huomaa, että lopputuloksen olisi voinut päätellä myös ilman laskentaa sillä vinous on epäsymmetrian mitta odotusarvon suhteen ja koska ptnf on tässä tapauksessa selvästi symmetrinen odotusarvon suhteen, niin vinous on tällöin automaattisesti nolla.

3.5 Kurtoosisuus

Kurtoosisuus (En: curtosis) on tilastollinen tunnusluku, joka kuvaa jakaman häntien paksuuksia.

Satunnaismuuttujan \(X\) kurtoosisuus \(Kurt(X)\) määritellään odotusarvona \[Kurt(X)=E\left[\left(\frac{X-E(X)}{\sigma}\right)^4\right]=\frac{E\left((X-E(X))^4\right)}{\sigma^4},\] jossa \(\sigma\) on satunnaismuuttujan keskihajonta.

Huomaa, että yllämääritettyä kurtoosisuutta kutsutaan usein virheellisesti huipukkuudeksi. Lisätietoa aiheesta esimerkiksi täällä.

Jakauman kurtoosisuutta verrataan usein standardinormaalijakauman kurtoosisuuteen, jonka suuruus on kolme. Tätä vertailua varten on määritelty myös suure Excess kurtosis (jolle ei ole vakiintunutta suomenkielistä käännöstä). Tämä määritellään suureena \(Kurt(X) -3\) ja standardinormaalijakaumalle tämä suure on siis nolla.

Esimerkki 3.5.1: jatkuvan satunnaismuuttujan kurtoosisuuden laskenta (jatkoa aiemmalle)
Laske \(Tas[0,1]\) jakauman kurtoosisuus.
Ratkaisu: tasajakauman tiheysfunktio on \(f(x)=1\), kun \(0\leq x \leq 1\) ja muutoin nolla. Nyt \(E\left( (X-E(X))^4\right)=\int_0^1 (x-0.5)^4*1dx=F(1)-F(0)\). Kun avataan huolellisesti termi \((x-0.5)^4\) ja integroidaan polynomin termit saadaan funktion \((x-0.5)^4*1\) integraalifunktioksi \(F(x)=\frac{16x^5-40x^4+40x^3-20x^2+5x}{80}\). Sijoittamalla integroinnin ylä- ja alarajat saadaan odotusarvoksi \(E\left((X-E(X))^4\right)=\frac{1}{80}\). Kun lisäksi käytetään aiemmin laskettua tulosta varianssille \(Var=1/12\) saadaan kurtoosisuudeksi \(\frac{1/80}{(1/12)^2}=1.8\) (joka vastaa excess kurtosis arvoa \(1.8-3=-1.2\)).

3.6 Tunnuslukujen laskenta simulointia käyttäen

Tunnuslukuja on mahdollista laskea myös simuloimalla. Tällöin tuotetaan suuri määrä havaintoja jostain jakaumasta, joille voidaan edelleen kohdistaa muunnoksia ja näitä voidaan tarpeen mukaan edelleen käyttää syötteinä toisille satunnaismuuttujille Lopputuloksena saatavasta havaintoaineistosta voidaan helposti laskea tunnuslukuja. Tähän tapaan tutustutaan enemmän kurssin R-harjoituksissa.