6 Hypoteesintestausta syvemmin

Tilastotieteen perusteiden kurssilla on tutustuttu jo hypoteesintestauksen perusasetelmaan, joten tässä materiaalissa aiheen fundamentit käydään vain hyvin kursorisesti läpi. Pääpaino tässä kappaleessa on laajentaa testipankkia ja tutustua erityisesti ns. epäparametrisiin testeihin. Tämän lisäksi pyritään syventämään yleistä ymmärrystä hypoteesintestauksesta tyypillisen suoraviivaisen mekaanisen lähestymisen ohella.

6.1 Pohjia

Tilastollinen hypoteesintestaus on työkalu vastaamaan kysymykseen jonkin väittämän tilastollisesta paikkansapitävyydestä havaintojen perusteella. Testauksessa määritetään yhdellä tavalla yhteensopivuutta tai “uskottavuutta” saada tietty realisaatio tai havainto(sarja), kun taustalle oletetaan tietty väittämän mukainen mekanismi. Väitettä tutkitaan numeerisesti määrittämällä ensiksi väitettä vastaava testisuure, joka toimii yhteensopivuuden mittarina. Kun teorian nojalla tiedetään testisuureen jakauma, niin tämän perustuen lasketaan todennäköisyys, että kuinka todennäköistä on saada vähintään yhtä poikkeava testisuureen arvo testisuureen oletetusta jakaumasta täysin sattumalta.

Esimerkki 6.1.1 (testauksen perusajatusta demonstroiva esimerkki)
Oletetaan, että perinteisellä kivi-sakset-paperi (KSP) pelissä voiton todennäköisyys on 0.5 (kun peli pelataan aina loppuun). Mentalisti Pinja on voittanut 50 KSP:stä nyt 48. Hypoteesintestauksessa voitaisiin tutkia esimerkiksi, onko Pinjan voittotodennäköisyys tavallisesta poikkeava. Tämä tehdään muodostamalla testisuure voitettujen pelien suhteelliselle osuudelle ja laskemalla todennäköisyys sille, että testisuure on vähintään yhtä poikkeava perustuen oletukseen reilusta nopasta.

6.1.1 Hypoteesintestaukseen tarvittavat elementit

Tilastollinen testi. Tilastollisia testejä on rakennettu paljon erilaisiin tilanteisiin. Vastaavanlaisia testejä kuin tässä materiaalissa katetaan, on yleisessä käytössä muutamia kymmeniä (ks. lyhyt lista perustesteistä). Näiden lisäksi moniin näistä testeistä on olemassa pieniä modifikaatioita, esimerkiksi testaukseen pieneen otokseen perustuen. Vaikka osa testeistä onkin käyttöaiheiltaan osin samankaltaisia, niin pääosin eri testit sopivat kaikki omanlaiseen tilanteeseen, ja oikean testin valinta onkin hyvin oleellinen vaihe tilastollista analyysiä. Käyttöaiheeltaan ja vaatimuksiltaan vääränlaisen testin valinta on lähtökohtaisesti vähintäänkin huonoa tiedettä ja useimmiten yksinkertaisesti väärin. Myöskin opportunistinen “testishoppailu” parhaan tuloksen tavoittelemiseksi on useimmiten vielä tuomittavampaa.
Nollahypoteesi \(H_0\) on testattava väittämä, joka todisteiden valossa joko hylätään (riittävästi näyttöä hylkäyksestä) tai ei hylätä (ei riittävästi näyttöä hylkäyksestä). Nollahypoteesin valinnassa noudatetaan yleisesti konservatiivisuusperiaatetta, joka tarkoittaa käytännössä, että nollahypoteesit ovat muotoa “ei ole tavallisesta poikkeava”, “kaikki on samanlaista”, “mikään ei ole muuttunut” tai jotain vastaavaa. Tämän periaatteen mukaan yllä olevassa demo-esimerkissä nollahypoteesi asetettaisiin muotoon “\(H_0\): voittotodennäköisyys on 0.5”.
Vaihtoehtoinen hypoteesi \(H_1\) on nollahypoteesin komplementti eli vaihtoehtoinen selitysmalli. Tämä hypoteesi astuu voimaan, jos nollahypoteesin mukainen väittämä hylätään testissä eli kun havainnot eivät ole enää linjassa nollahypoteesin kanssa. Jos nollahypoteesi on yleistä muotoa, että \(H_0: \gamma = \gamma_0\) (ylläolevassa esimerkissä: Pinjan voittotodennäköisyys \(=0.5\)), niin vaihtoehtoinen hypoteesi voi olla kahta muotoa
- Kaksisuuntainen vaihtoehtoinen hypoteesi \(H_1\): \(\gamma \neq \gamma_0\) (yllä Pinjan voittotodennäköisyys \(\neq 0.5\))
- Yksisuuntainen vaihtoehtoinen hypoteesi \(H_1\): \(\gamma < \gamma_0\) tai \(H_1: \gamma > \gamma_0\) (ylläolevassa esimerkissä Pinjan voittotodennäköisyys \(<0.5\) tai Pinjan voittotodennäköisyys \(>0.5\))
Vaikka yksisuuntaiset vaihtoehtoiset hypoteesit vaikuttavatkin ehkä joissain käytännön tilanteissa houkuttelevilta vaihtoehdoilta (esimerkiksi yo. esimerkissä olisi houkuttelevaa testata Pinjan parempaa voittotodennäköisyyttä), niin yksisuuntaisilla vaihtoehtoisilla hypoteeseilla on kuitenkin muutamia teoreettisia ja käytännöllisiä ongelmia. Ilman painavia syitä on usein turvallisempaa tarkastella kaksisuuntaisia vaihtoehtoisia hypoteeseja ja lähtökohtaisesti tässä materiaalissa (ja tämän kurssin puitteissa) tarkastellaan aina oletusarvoisesti kaksisuuntaisia vaihtoehtoisia - yksisuuntaisia vaihtoehtoisia hypoteeseja käytetään vain korkeintaan huolellisesti harkituissa erityistilanteissa.
Yleinen hypoteesi. Testauksessa tehdään aina jotain teoreettisia taustaoletuksia, esimerkiksi havaittujen muuttujien teoreettisesta jakautumisesta tai taustalla olevasta otannasta. Näitä taustaoletuksia kutsutaan usein nimellä yleinen hypoteesi. Tällainen on esimerkiksi oletus havaintojen normaalijakaumasta. Tässä yhteydessä on huomattava, että datan tarkoituksellinen “puhdistaminen” tai muu väkivaltainen käsittely erilaisin “muunnoksin” testin yleisen hypoteesin vaatimuksiin on lähtökohtaisesti vähintäänkin huonoa tiedettä.
Merkitsevyystaso \(\alpha\) on testissä käytetty sattuman (kipu)raja, joka toimii vedenjakajana sille, hylätäänkö nollahypoteesi vai ei:
- Jos testin \(p\)-arvo on pienempi kuin \(\alpha\) tai testisuureen arvo on \(\alpha\):n määrittämällä hylkäysalueella, niin nollahypoteesi hylätään
- Jos testin \(p\)-arvo on suurempi tai yhtä suuri kuin \(\alpha\) tai testisuureen arvo ei ole \(\alpha\):n määrittämällä hylkäysalueella, niin nollahypoteesia ei hylätä.
Tyypillinen oppikirjavalinta merkitsevyystasolle on \(\alpha=0.05\) ja tätä käytetään varsin usein myös tieteellisissä töissä, vaikka tämän yhden “standardi”merkitsevyystason käyttäminen onkin varsin ongelmallista.

6.1.2 Hypoteesintestauksen kritiikki ja ongelmat

Hypoteesintestaus on yksi eniten käytetyistä tilastollisista menetelmistä, ja ehdottomasti eniten väärinkäytetty tilastollinen menetelmä, jolla on myös joitakin perustavaa laatua olevia teoreettisia ongelmia. Seuraavassa on listattu näistä tärkeimpiä.

1. Kaikilla tilastollisilla testeillä on omat taustaoletuksensa, rajoitteensa ja käyttökohteensa, jotka kuitenkin käytännössä valitettavan usein unohdetaan tai niistä ei olla tietoisia riittävällä tasolla. Tämä pätee erityisesti hypoteesintestaukseen, jossa reunaehtojen pätevyys voi olla erittäin tärkeää. Hyvään testausproseduuriin kuuluu ehdottomasti testikohtaisten taustaoletusten ja rajoitteiden voimassaolon kriittinen tarkastelu.

2. Testausproseduurissa lasketaan todennäköisyyttä saada nollahypoteesin mukaisessa tilanteessa testisuureelle vähintään yhtä poikkeava havainto kuin on havaittu. Todisteena nollahypoteesia vastaan käytetään siis testisuureen mahdollisia arvoja, jotka olisivat voineet tapahtua, mutta eivät tapahtuneet. Käytännön elämässä tämä voisi kärjistäen tarkoittaa esimerkiksi sitä, että poliisi ylinopeussakkoa määrittäessään sakottaisi myös mahdollisista suuremmista ylinopeuksista, mutta joihin kuljettaja ei ole syyllistynyt.

3. Tilastollisessa hypoteesintestauksessa lasketaan oleellisesti uskottavuutta suureelle havainnot | testattava väittämä, kun oikeasti kiinnostava suure olisi testattava väittämä | havainnot. Tämä on yksi esimerkki ongelmasta, jota tilastotieteessä kutsutaan nimellä Confusion of the inverse.

4. Merkitsevyystason \(\alpha\) tyypilliset valinnat perustuu ikivanhoihin puhtaan tilastotieteellisiin konventioihin, jotka eivät useinkaan ota huomioon esimerkiksi substanssikohtaisia asioita. Useimmiten mantranomaisesti käytettävä merkitsevyystaso \(\alpha=0.05\), on monissa tilanteissa melko vaatimaton merkitsevyystaso, mutta tästä huolimatta mm. monet tieteelliset lehdet edellyttävät tätä. Tämä vaatimaton merkitsevyystaso mahdollistaa helposti väärien signaalien löytymisen. Tämän asian on todennut myös tilastollisen hypoteesintestauksen isähahmo Ronald Fisher, jonka terminologiassa merkitsevyystaso \(\alpha=0.05\) on “low standard of significance”.

5. Tilastollisen hypoteesintestauksen tuottama dikotominen vastaus (hylätään tai ei-hylätä nollahypoteesi) voidaan nähdä hyvin latteana ja yliyksinkertaistavana vastauksena alkuperäiseen kysymykseen tutkittavaan substasssihypoteesiin. Tällöin myös hieman valittua merkitsevyystasoa \(\alpha\) suuremmat tulokset hylätään aivan samalla tavalla kuin hyvin paljon suuremmat. Vastaavasti päätelmät esimerkiksi \(p\)-arvoilla \(0.04994\) ja \(0.05006\) tuottavat erilaiset lopputulemat hypoteesintestauksessa merkitsevyystasolla \(\alpha=0.05\) vaikka luvut ovat melko lailla oleellisesti samoja. Käytännön aineistot ja analyysi on lähes aina altis esimerkiksi erilaisille inhimillisille virheille ja muulle satunnaisuudelle. Pienet vaihtelut kuuluvat aina asiaan, ja tällöin myös laskettu \(p\)-arvokin vaihtelee jonkin verran. Tuijottaminen pelkästään muutamiin pieniin desimaaleihin ei tällöin ole välttämättä kokonaisuuden kannalta oleellista.

6. Yksi tyypillinen testausasetelma on tarkastella kahden otoksen samanlaisuutta, jolloin hypoteesi on muotoa \(H_0:\gamma_1=\gamma_2\). Esimerkkinä tästä t-testi odotusarvojen samanlaisuudelle. Testausasetelmassa testataan siis äärelliseen otokseen perustuen ovatko suureet (esim. odotusarvot) samat. Tällainen hypoteesi on matemaattisen teorian näkökulmasta tarkasteltuna kuitenkin hyvin kyseenalainen, sillä teorian mukaan jatkuville muuttujille tällaisen tapahtuman todennäköisyys on täsmällisesti katsoen nolla, sillä otoksissa on aina luonnollista vaihtelua.

7. Tilastollista hypoteesintestausta tehdään hyvin monissa substanssianalyyseissä usein pakollisena normityökaluna ja analyysin viimeisenä sanana. Tilastollisten testien pitäisi kuitenkin olla lähtökohta tulosten tulkinnalle - ei päätepiste. Pelkkä pieni \(p\)-arvo ei ole yksinään riittävä tulos. Lisäksi tarvitaan substanssin tuntemusta ja analyysiä tulosten käytännön merkityksestä. Vaikka hypoteesintestauksesta saadaankin ehkä tilastollisesti merkittäviä tuloksia, niin todellisuudessa kannattaa aina muistaa, että tilastollinen merkitsevyys on eri asia kuin merkittävyys substanssin kannalta.

8. Hypoteesintestauksessa usein laskettava \(p\)-arvo on tilastotieteen yksi väärinymmärretyimmistä, ja joskus myös väärinkäytetyimmistä käsitteistä. Laskettu \(p\)-arvo voi suurella aineistokoolla olla hyvinkin pieni, vaikka mitään todellista efektiä ei ole olemassa ja \(p\)-arvo on siis otoskoon suhteen sensitiivinen suure. Tämän lisäksi p-arvoa on mahdollista opportunistisesti vääristellä (ks. p-hacking). Vääristelyä on toki mahdollista tehdä myös minkä tahansa muunkin tilastollisen menetelmän puitteissa, mutta p-arvojen kohdalla tätä on valitettavasti tapahtunut suhteellisen paljon.

9. Hypoteesintestauksessa ei varsinaisesti koskaan hyväksytä mitään hypoteesia. Testauksessa tutkitaan numeerisia todisteita sille, että nollahypoteesi ei pidä paikkansa. Mikäli sellaisia ei löydetä, niin nollahypoteesi jätetään voimaan, mutta sitä ei siis missään vaiheessa kuitenkaan periaatteessa hyväksytä. Mikäli todisteita nollahypoteesia vastaan löydetään, niin tällöinkin mielipide vaihdetaan nollahypoteesista vaihtoehtoiseen hypoteesiin, mutta tällöinkään vaihtoehtoista hypoteesia ei tarkkaan ottaen varsinaisesti hyväksytä.

6.1.3 Välisoitto

Yllä olevasta perustellusta ja fundamentaalisesta kritiikistä huolimatta perinteistä tilastollista hypoteesintestausta käytetään edelleen hyvin laajasti. Hypoteesintestaukselle on kehitetty myös muita osin kestävämpiä ja nykyaikaisempia vaihtoehtoja (ks. esim. Bayes-kerroin/Bayes Factor). Nämä eivät kuitenkaan ole vielä toistaiseksi päässeet laajempaan käyttöön, jonka takia näitä ei esitellä tässä materiaalissa.

Seuraavassa käydään läpi tämän kurssin aseman kannalta yleisimmät tilastolliset testit tausta-asetelmineen ja rajoitteineen. Lineaariseen regressioon liittyvät testit esitellään myöhemmin tässä dokumentissa. Testien teknismekaaninen (R-)toteutus sekä tausta-asetelmien käytännön tarkistus on jätetty tästä kirjallisesta materiaalista pois ja ne on sisällytetty kurssinaikaiseen muuhun sisältöön, jossa sivutaan myös jonkin verran yllä mainittuja tilastolliseen hypoteesintestaukseen liittyviä metatietoja ja -taitoja.

6.2 Parametrisiä testejä

6.2.1 Studentin t-testi odotusarvon lukuarvolle (yksi otos)

Studentin t-testi yhdelle otokselle on tyypillinen tapa testata, sopiiko havaittu yhden otoksen jakauma taustaoletukseen odotusarvon mielessä.

Taustaoletus (yleinen hypoteesi): havainnot \(X_i\) on saatu riippumattomasti ja ne noudattavat jakaumaa \(X_i\sim N(\mu,\sigma^2)\), jossa varianssi oletetaan tuntemattomaksi. Havainnot ovat vähintään intervalliasteikollisia.

Testattava hypoteesi: testissä tutkitaan aineistoon perustuen, onko (normaalisti jakautuneen) havaintoaineiston odotusarvo suuruudeltaan tietty kiinteä annettu arvo \(\mu_0\)

\(H_0: \mu = \mu_0\)
Kaksisuuntainen \(H_1: \mu \neq \mu_0\)
Yksisuuntainen \(H_1: \mu > \mu_0\) tai \(H_1: \mu < \mu_0\)

Testisuure on muotoa \[t=\frac{\bar{X}-\mu_0}{s/\sqrt{n}}\] jossa \(\bar{X}= \frac{1}{n}\sum_{i=1}^{n} X_i\) on havaintojen aritmeettinen keskiarvo ja \(s= \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(X_i -\bar{X})^2}\) on otoskeskihajonta.

Näin määritellen testisuure \(t\) noudattaa referenssijakaumaa \(t \sim t(n-1)\) ja p-arvot tai kriittiset pisteet voidaan laskea tästä jakaumasta.

Testin ominaisuuksia

Testi olettaa havaintojen normaalisuuden.
Keskeisen raja-arvolauseen perusteella testiä voidaan käyttää myös ei-normaalijakautuneiden satunnaismuuttujien odotusarvon testaamiseen, mikäli havaintoja on riittävästi (yksi peukalosääntö \(n>40\)) ja jakauma ei ole kovin vino. Absoluuttista ja yleistä kipurajaa tälle poikkeamalle normaalijakaumasta ei ole.

6.2.2 Studentin t-testi odotusarvojen yhtäsuuruudelle (kaksi otosta)

Studentin t-testi kahdelle otokselle testaa onko havaitut kahteen otokseen perustuvat jakaumat samankaltaisia odotusarvon mielessä.

Taustaoletus (yleinen hypoteesi): keskenään riippumattomat havaintosarjat \(X_i, i = 1,...,n_1\) ja \(Y_i, i=1,...,n_2\) noudattavat jakaumaa \(X_i \sim N(\mu_1,\sigma_{1}^2)\) ja \(Y_i \sim N(\mu_2,\sigma_{2}^2)\) ja sarjojen sisällä havainnot ovat riippumattomia. Tässä kumpaakaan varianssia \(\sigma_{1}^2\), \(\sigma_{2}^2\) ei tunneta ja ne voivat olla erisuuria. Havaintoaineistojen koot \(n_1\) ja \(n_2\) voivat myös olla erisuuria. Havainnot ovat vähintään intervalliasteikollisia.

Testattava hypoteesi: testissä tutkitaan aineistoon perustuen, onko (normaalisti jakautuneiden) havaintoaineistojen odotusarvot \(\mu_1\) ja \(\mu_2\) samoja

\(H_0 : \mu_1 = \mu_2\)
Kaksisuuntainen \(\mu_1 \neq \mu_2\)
Yksisuuntainen \(H_1: \mu_1 > \mu_2\) tai \(H_1: \mu_1 < \mu_2\)

Testisuure on muotoa \[t_A = \frac{(\bar{X}-\bar{Y})}{\sqrt{\frac{s_{1}^{2}}{n_1} + \frac{s_{2}^{2}}{n_2}}},\] jossa \(\bar{X} = \frac{1}{n_1}\sum_{i=1}^{n_1}X_i\) on \(X_i\) havaintojen aritmeettinen keskiarvo ja \(s_1^{2} =\frac{1}{n_1-1}\sum_{i=1}^{n_1}(X_{i}-\bar{X})^2\) otosvarianssi. Suureet \(\bar{Y}\) ja \(s_2^{2}\) määritellään vastaavasti havaintosarjalle \(Y_i\).

Näin määritellen on testisuureelle suurella otoskoolla voimassa \(t_A \sim_a N(0,1)\), jossa ‘\(\sim_a\)’ tarkoittaa approksimatiivista jakautumista. Testin \(p\)-arvot ja kriittiset pisteet voidaan laskea tästä jakaumasta.

Tämän testin kohdalla on huomattava, että tässä testiasetelmassa testisuureelle käytetään kirjallisuudessa testisuureen referenssijakaumana usein myös \(t\)-jakaumaa normaalijakauman sijasta. Tätä testivarianttia kutsutaan yleisesti ns. Welchin testiksi. Tässä t-jakauman vapausasteiden laskenta on kuitenkin hieman hankalaa ja koska suurilla havaintomäärillä arvoilla t-jakauma lähestyy normaalijakaumaa, niin tämän kurssin puitteissa riittää käyttää referenssijakaumana standardinormaalijakaumaa, kunhan otoskoko on riittävän suuri.

Testin ominaisuuksia

Testi olettaa havaintojen normaalisuuden
Testiä voidaan käyttää rajoitetusti myös ei-normaaleille havainnoille, kunhan havaintolukumäärä on riittävän suuri (ks. yhden otoksen t-testi).
Mikäli varianssien oletaan olevan jostain syystä samanlaisia, niin tällöin testisuureen jakajana voidaan käyttää ns. puulattua varianssia, joka määritellään \(s_p=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n1_+n_2-2}\) ja tällöin testisuure noudattaa t-jakaumaa vapausteella \((n_1+n_2-2)\).

6.2.3 Parivertailutesti odotusarvon erolle samanlaisissa olosuhteissa

Parivertailutestiä käytetään tutkimaan odotusarvon eroa ja muutosta samasta muuttujasta. Tyypillisesti tämä asetelma on kyseessä esimerkiksi, kun tarkasteltaviin muuttujiin kohdistetaan jokin toimenpide tai käsittely. Aineisto koostuu tällöin ennen ja jälkeen toimenpiteen havainnoista, jolloin jokaisesta muuttujasta on kaksi eriaikaista havaintoa. Toinen parivertailutestin käyttöaihe on esimerkiksi tilanne, jossa täsmälleen havainnot mitataan samanaikaisesti kahden eri mittarin taholta ja tavoitteena on tutkia mittareiden samankaltaisuutta.

Taustaoletus (yleinen hypoteesi): käytössä on yhtäpitkät havaintosarjat \(X_1\) ja \(X_2\) ja testissä tarkastellaan havaintoparien erotuksia \(D_i = X_{i1}-X_{i2}\), \(i=1,...,n\), jotka ovat keskenään riippumattomia ja jokainen \(D_i \sim N(\mu_D,\sigma_{D}^{2}\)). Muuttujille \(X_{1i}\) tai \(X_{2i}\) ei siis tässä oleteta normaalijakaumaa, mutta niiden erotukselle oletetaan. Havaintoparien erotukset ovat vähintään intervalliasteikollisia.

Testattava hypoteesi: testissä tutkitaan aineistoon perustuen, onko (normaalistijakautuneiden) erotusten odotusarvo \(\mu_d\) nolla

\(H_0 : \mu_d = 0\)
Kaksisuuntainen \(H_1: \mu_d \neq 0\)
Yksisuuntainen \(H_1 : \mu_D > 0\) tai \(H_1: \mu_D < 0\)

Testisuure:

\[t = \frac{\bar{D}}{s_D / \sqrt{n}},\] jossa \(\bar{D}= \frac{1}{n}\sum_{i=1}^{n} D_i\) on erotusten arimeettinen keskiarvo ja \(s_D =\sqrt{\frac{1}{(n-1)}\sum_{i=1}^{n}(D_i - \bar{D})^2}\) on erotusten otoskeskihajonta. Näin määritellen on testisuureelle voimassa \(t \sim t(n-1)\) ja testin kriittiset pisteet sekä p-arvot voidaan laskea tästä jakaumasta.

Tämän testin kohdalla tulee huomata, että tämä testi on luonteeltaan erilainen kuin aiemmin kuvattu testi odotusarvojen yhtäsuuruudelle, sillä tässä tarkastellaan havaintopareja. Vaikka testissä vaaditaankin havaintojen \(D_i\) olevan keskenään riippumattomia, niin saman yksikön \(X_{1i}\) ja \(X_{2i}\) riippuvat oletettavasti toisistaan, koska ne ovat samasta mittausyksiköstä. Käytännön tilanteessa tämä voisi tarkoittaa vaikka, että tutkimuksen kohteena olevat \(n\) henkilöä ovat keskenään riippumattomia, mutta yksittäisen henkilön ennen- ja jälkeen havainnot eivät ole riippumattomia sillä ne tulevat samalta henkilöltä.

Testin ominaisuuksia

Testi olettaa erotusten normaalisuuden
Testiä voidaan käyttää rajoitetusti myös ei-normaaleille havainnoille \(D_i\), kunhan havaintolukumäärä on riittävän suuri (ks. yhden otoksen t-testi).

6.2.4 \(\chi ^2\)-testi varianssin lukuarvolle (yksi otos)

Tätä testiä käytetään tutkimaan, sopiiko havaittu yhden otoksen jakauma taustaoletukseen varianssin mielessä.

Taustaoletus (yleinen hypoteesi): havainnot \(X_i,i=1,...,n\) on saatu riippumattomasti normaalijakaumasta \(N(\mu,\sigma^2)\). Havainnot ovat vähintään intervalliasteikollisia.

Testattava hypoteesi: testissä tutkitaan aineistoon perustuen, onko (normaalisti jakautuneen) havaintoaineiston varianssi suuruudeltaan tietty kiinteä annettu arvo \(\sigma_0^2\)

\(H_0: \sigma^2 = \sigma_{0}^2\)
Kaksisuuntainen \(H_1: \sigma^2 \neq \sigma_{0}^2\)
Yksisuuntainen \(H_1: \sigma^2 > \sigma_{0}^2\) tai \(H_1: \sigma^2 < \sigma_{0}^2\)

Testisuure on muotoa

\[\chi^2 =\frac{(n-1)s^2}{\sigma_{0}^2},\] jossa \(s^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^2\) on otosvarianssi. Näin määritellen testisuureelle on voimassa \(\chi^2 \sim \chi^2 (n-1)\) ja testin p-arvot sekä kriittiset pisteet voidaan laskea tästä jakaumasta.

Testin ominaisuuksia:

Testi olettaa erotusten normaalisuuden
Testi ei toimi kovinkaan hyvin ei-normaalien havaintojen varianssin testaamiseen edes suurilla havaintomäärillä.

Käytännön konteksteissa tämän testin kohdalla pitäydytään usein vain yksisuuntaisissa vaihtoehtoisissa hypoteeseissa, sillä varianssin pienuus ei useinkaan ole ongelma.

6.2.5 F-testi varianssien yhtäsuuruudelle (kaksi otosta)

F-testi kahdelle otokselle testaa onko havaitut kahteen otokseen perustuvat jakaumat samankaltaisia varianssin mielessä

Taustaoletus (yleinen hypoteesi): keskenään riippumattomat havaintosarjat \(X_i, \, (i=1,...,n_1)\) ja \(Y_i,\, (i=1,...,n_2)\) noudattavat jakaumaa \(X_i \sim N(\mu_1,\sigma_{1}^2)\) ja \(Y_i \sim N(\mu_2,\sigma_{2}^2)\) ja sarjojen sisällä havainnot ovat riippumattomia. Tässä kumpaakaan odotusarvoa \(\mu_1\), \(\mu_2\) ei tunneta ja ne voivat olla erisuuria. Havaintoaineistojen koot \(n_1\) ja \(n_2\) voivat myös olla erisuuria. Havainnot ovat vähintään intervalliasteikollisia.

Testattava hypoteesi: testissä tutkitaan aineistoon perustuen, onko (normaalisti jakautuneiden) havaintoaineistojen varianssit samoja

\(H_0: \sigma_{1}^2 = \sigma_{2}^2\) eli varianssit ovat samoja
Kaksisuuntainen \(H_1: \sigma_1^2 \neq \sigma_2^2\)
Yksisuuntainen \(H_1: \sigma_1^2 < \sigma_2^2\) tai \(H_1: \sigma_1^2 > \sigma_2^2\).

Testisuure:

Testisuure on muotoa \[F =\frac{s_{1}^2}{s_{2}^2},\] jossa \(s_1^{2} =\frac{1}{n_1-1}\sum_{i=1}^{n_1}(X_{i}-\bar{X})^2\) on \(X_i\)-havaintojen otosvarianssi ja vastaavasti \(s_2^{2}\) on \(Y_i\)-havaintojen otosvarianssi. Näin määritellen on testisuureelle voimassa \(F \sim F(n_1-1,n_2-1)\) ja testin p-arvot sekä kriittiset pisteet voidaan laskea tästä jakaumasta.

Huomaa, että testisuure voidaan määritellä myös toisessa järjestyksessä \({s_{2}^2}/{s_{1}^2}\), jolloin F-jakauman vapausasteet ovat vastaavasti toisessa järjestyksessä.

Testin ominaisuuksia

Testi olettaa erotusten normaalisuuden ja riippumattomuuden.
Ei toimi kovinkaan hyvin ei-normaalien havaintojen varianssin testaamiseen.

6.3 Epäparametrisiä testejä

Edellä kuvatut testit olettavat kaikki havainnoille jonkun tietyn jakaumamuodon, jonka takia niitä kutsutaan yleisnimellä parametriset tai jakaumariippuvaiset testit. Parametrisissä testeissä tämä jakaumaoletus on käytännössä normaalijakauma. Tällaiset tiettyyn jakaumamuotoon perustuvat testit toimivat hyvin, niin kauan kuin taustaoletukset jakaumista pitävät hyvin tai kohtuullisesti paikkansa. Testit voivat toimia tietyin ehdoin kohtuullisesti myös silloin kuin jakaumaoletukset eivät täysin pidä paikkaansa, kunhan otoskoko on suuri. Mikäli otoskoko ei ole suuri tai poikkeama jakaumaoletuksesta on merkittävä, niin parametriset testit eivät toimi enää kovin hyvin - tai ei juuri ollenkaan.

Edellä mainittujen rajoitteiden takia tilastollisia testejä on kehitetty myös tapauksiin, joissa havainnoille ei vaadita mitään jakaumamuotoa, ja näitä kutsutaan yleisesti epäparametrisiksi tai jakaumariippumattomiksi testeiksi. Sen lisäksi, että nämä testit ovat jakaumaoletusten suhteen vaatimattomampia ne toimivat usein myös paremmin pienempien otosten tapauksessa verrattuna parametrisiin testeihin. Osa epäparametrisistä testeistä toimii myös ordinaali- tai jopa nominaaliasteikollisille muuttujille ja ovat siten vaatimattomampia muuttujien luonteen suhteen. Parametristen testien kohdalla on kuitenkin huomattava, että vaikka ne pyrkivätkin vastaamaan parametristen testien kanssa moniin samankaltaisiin makrotason kysymyksiin - esimerkiksi jakaumien samankaltaisuudesta - niin useimmiten täsmällinen kriteeri samankaltaisuudesta on erilainen. Näin ollen parametriset ja epäparametriset testit eivät ole täysin vaihdannaisia toistensa kanssa.

6.3.1 Testi suhteellisen osuuden lukuarvolle (yksi otos)

Suhteellisen osuuden testissä tutkitaan, onko tietyn tapahtuman suhteellinen osuus havaintoaineistossa eli estimoitu onnistumistodennäköisyys linjassa oletetun teorian kanssa.

Taustaoletus (yleinen hypoteesi): riippumattomat binääriset 0/1- esimerkiksi kyllä/ei - havainnot \(X_i, i = 1,...,n\) on saatu riippumattomasti \(Bernoulli(p)\) jakaumasta.

Testattava hypoteesi: Testissä tutkitaan aineistoon perustuen, onko onnistumistodennäköisyys tapahtumille suuruudeltaan tietty kiinteä annettu arvo \(p_0\)

\(H_0 : p = p_0\)
Kaksisuuntainen \(H_1: p \neq p_0\)
Yksisuuntainen \(H_1: p > p_0\) tai \(H_1: p < p_0\)

Testisuure on muotoa \[Z= \frac{\hat{p}-p_0}{ \sqrt{\frac{p_0(1-p_0)}{n}}},\] jossa \(\hat{p} = \frac{1}{n}\sum_{i=1}^{n}X_i\) on estimaattori onnistumistodennäköisyydelle. Näin määritellen testisuureelle \(Z\) on voimassa approksimatiivisesti \(Z \sim_a N(0,1).\)

Testin ominaisuuksia

Testisuureen jakaumaoletus perustuu binomijakauman normaaliapproksimaatioon ja toimii hyvin vain kun \(n\hat{p} \geq 10\) ja \(n(1-\hat{p}) \geq 10\).

6.3.2 Testi suhteellisten osuuksien yhtäsuuruudelle (kaksi otosta)

Suhteellisten osuuksien vertailutestissä tutkitaan, onko tietyn tapahtuman suhteellinen osuus sama kahdessa eri havaintoaineistossa, joiden koot voivat olla erilaiset.

Taustaoletus (yleinen hypoteesi): keskenään riippumattomat havaintosarjat \(X_i, i = 1,...,n_1\) ja \(Y_i, i = 1,...,n_2\) ovat kumpikin Bernoulli-jakautuneet \(X_i\sim Bernoulli(p_1)\) ja \(Y_i\sim Bernoulli(p_2)\) ja sarjojen sisällä havainnot ovat riippumattomia.

Testattava hypoteesi:

\(H_0 : p_1 = p_2\)
Yksisuuntainen \(H_1: p_1 \neq p_2\)
Kaksisuuntainen \(H_1: p_1 > p_2\) tai \(H_1: p_1 < p_2\)

Testisuure on muotoa

\[Z=\frac{\hat{p}_1-\hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1} +\frac{1}{n_2})}},\] jossa \(\hat{p}\) määritellään painotettuna keskiarvona tapahtumatodennäköisyyksien estimaateista \(\hat{p}_1\) ja \(\hat{p}_2\) eli \(\hat{p}=\frac{n_{1}\hat{p}_1+n_{2}\hat{p}_2}{n_1 + n_2}\). Näin määritellen on testisuureelle \(Z\) on approksimatiivisesti voimassa \(Z \sim_a N(0,1).\)

Testin ominaisuuksia

Havainnot ovat nominaali- eli laatueroasteikollisia.
Testisuureen jakaumaoletus perustuu binomijakauman normaaliapproksimaatioon: toimii hyvin vain kun \(n\hat{p} \geq 5\) ja \(n(1-\hat{p}) \geq 5\).

6.3.3 Wilcoxonin testi mediaanin lukuarvolle (yksi otos)

Wilcoxonin testi vastaa omalla tavallaan kysymykseen aineiston keskimääräisyydestä tutkimalla havaintoaineiston mediaania, kun vastaavasti parametrinen yhden otoksen t-testi tutki (normaalijakauman) odotusarvoa.

Järjestysluku eli rank(i)
Wilcoxonin testi perustuu ajatukseen havaintojen suuruuksien tutkimisesta suhteessa mediaaniin: mikäli mediaani on oikeaa luokkaa, niin noin puolet havainnoista pitäisi olla mediaanikandidaattia suurempia ja puolet pienempiä. Testisuureen rakentamiseen käytetään havaintojen järjestyslukuja eli rankejä (En: rank), jotka määritellään havaintoaineiston suuruusjärjestyksen sijalukuna pienimmästä suurimpaan. Havaintosarjan \(Z_1,\ldots,Z_n\) havainnon \(Z_i\) järjestysnumeroa eli rankia merkitään symbolilla \(R(Z_i)\).

Taustaoletus (yleinen hypoteesi): havainnot \(X_i, i=1,\ldots,n\) on saatu symmetrisestä jakaumasta ja havainnot on vähintään intervalliasteikollisia muuttujia.

Testattava hypoteesi: testissä tutkitaan aineistoon perustuen onko mediaani joku tietty kiinteä annettu arvo \(Me_0\)

\(H_0: Mediaani(X) = Me_0\)
Kaksisuuntainen \(H_1: Mediaani(X) \neq Me_0\)
Yksisuuntainen \(H_1: Mediaani(X) > Me_0\) tai \(H_1: Mediaani(X) < Me_0\)

Testisuure
Määritellään aluksi jokaisen havainnon etäisyys nollahypoteesin mukaisesta mediaanista \(|D_i| :=|X_i - Me_0|\) sekä suureet \(Z_{i}^{´}\), jotka ovat suuruusjärjestetyt etäisyydet \(|D_i|^{´}t\). Testisuure on nyt \[Z = \frac{W^{+}-E(W^{+})}{D(W^{+})},\] jossa \(W^{+} = \sum_{D_i>0}R(Z_i)\) on niiden järjestyslukujen summa, joita vastaavat erotukset \(D_i = X_i - Me_0\) ovat positiivisia. Testisuureessa \(E(W^{+}) = \frac{1}{4}n(n+1)\) ja kuvaa suureen \(W^+\) teoreettista odotusarvoa ja \(D(W^{+})=\sqrt{\frac{1}{24}n(n+1)(2n+1)}\) kuvaa keskihajontaa. Näin määritellen on testisuureelle \(Z\) on approksimatiivisesti voimassa \(Z \sim_a N(0,1)\) ja testin p-arvot sekä kriittiset pisteet voidaan laskea tästä jakaumasta.

Wilcoxonin testin ominaisuuksia

Testi toimii hyvin vain riittävän suurissa otoksissa \((n>20)\)
Testille on olemassa myös aivan vastaava miinus-muoto, jossa tarkastellaan negatiivisia suureita \(D_i\)
Wilcoxonin testiä voidaan käyttää myös parivertailuasetelmiin. Tällöin nollahypoteesina on, että \(Me(D) = 0\), jossa suureet \(D_i\) määritellään vastaavina erotuksina kuin parametrisessä parivertailutestissä \(D_i=X_{i1}-X_{i2}\)

6.3.4 Mann-Whitneyn testi jakaumien (mediaanien) samuudelle (kaksi otosta)

Mann-Whitneyn testillä vastataan laveaan kysymykseen kahden satunnaismuuttujan \(X\) ja \(Y\) jakauman samankaltaisuudesta eli kysymykseen onko \(F_X = F_Y\). Testi perustuu yhdistetyn otoksen tarkasteluun, joka on järjestetty suurusjärjestykseen; mikäli toisen otoksen havainnot ovat systemaattisesti suurempia kuin toisen otoksen havainnot - eli toisen otoksen lukuarvot dominoivat toisia - niin havainnot eivät ole sekoittuneet ja tällöin jakaumien päätellään olevan erilaisia.

Taustaoletus (yleinen hypoteesi): on havaittu keskenään riippumattomat havaintosarjat \(X_i, i=1,\ldots,n\) ja \(Y_j, j=1,\ldots,m\), jotka ovat muutoin samoin jakautuneita, mutta mediaanit voivat erota. Havainnot ovat vähintään ordinaaliasteikollisia muuttujia.

Testattava hypoteesi:

\(H_0:\) jakaumat ovat samanlaisia eli \(F_X = F_Y\) (jolloin jakaumien mediaanit ovat samoja)
Kaksisuuntainen \(H_1\): jakaumat ovat erilaisia eli \(F_X \neq F_Y\) (jolloin jakaumien mediaanit ovat erisuuruisia)

Testisuure \[Z_2= \frac{U_{2} - \frac{1}{2}nm}{\sqrt{\frac{1}{12}nm(n+m+1)}},\] jossa \(U_2 = \sum_{j=1}^{m}\sum_{i=1}^{n}D_{ij}^{(2)}\). Tässä \[D_{ij}^{(2)} = \begin{cases} 1, \text{ jos } \, Y_j < X_i \\ 0, \text{ jos } \, Y_j > X_{i} \end{cases},\]

jossa \(j=1,2,\ldots,m\) ja \(i=1,2,\ldots, n\). Näin määritellen testisuureelle \(Z_2\) on approksimatiivisesti voimassa \(Z_2 \sim_a N(0,1)\) ja p-arvot tai kriittiset pisteet voidaan laskea tästä jakaumasta

Mann-Whitneyn testin ominaisuuksia:

Toimii hyvin vain riittävän suurissa otoksissa (\(n>10\) ja \(m>10\))
Otosten allokointi \(X\) ja \(Y\) otokseen on täysin valintakysymys, ja vaikka suureelle \(U_2\) saadaankin toinen lukuarvo toisella otosten nimeämisellä, niin lopputulos testistä on aivan sama
Mann-Whitneyn testistä esiintyy kirjallisuudessa erilaisia vaihtoehtoisia formulaatioita, jotka kuitenkin kaikki tuottavat samat lopputulokset

Esimerkki 6.3.4.1
Executive-koulutukseen valittiin kahden eri yrityksen työntekijöitä, joiden alkutestien pistemäärät ovat oheisessa taulukossa

\[ \begin{array}{c|c|c|c|c|c|c|ç|c} Yritys\, 1 & 26.9 & 36.5 & 33.5 & 32.6 & & & & \\ \hline Yritys\, 2 & 34.0 & 45.2 & 32.4 & 44.0 & 34.7 & 35.9 & 37.0& 46.0 \end{array} \]

Tutki Mann-Whitneyn testillä onko koulutukseen valittujen työntekijöiden osaamisessa eroa merkitsevyystasolla 0.01.

Ratkaisu
Nollahypoteesi on, että mediaanit ovat samoja. Merkitään symboleilla \(X_i, i=1,..,4\) yrityksen 1 havaintoja ja \(Y_i, i=1,..,8\) yrityksen 2 havaintoja. Käytetään lisäksi merkintää \(X_{(1)}\) pienimmälle \(X\)-sarjan havainnolle ja \(X_{(2)}\) toiseksi pienimmälle ja niin edelleen ja vastaavasti myös \(Y\)-havainnoille. Muodostetaan seuraava yhdistetty järjestetty otos

\[ \begin{array}{c|c|c|c|c|c|c|ç|c|c|c|c|c} Havainto & X_{(1)} & Y_{(1)} & X_{(2)} & X_{(3)} & Y_{(2)} & Y_{(3)} & Y_{(4)} & X_{(4)} & Y_{(5)} & Y_{(6)} & Y_{(7)} & Y_{(8)} \\ \hline Arvo & 26.9 & 32.4 & 32.6 & 33.5 & 34.0 & 34.7 & 35.9 & 36.5 & 37.0 & 44.0 & 45.2 & 46.0 \\ \hline Rank& 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & 11 & 12 \end{array} \]

Kun tarkastellaan suuretta \(U_2 = \sum_{j=1}^{m}\sum_{i=1}^{n}D_{ij}^{(2)}\) niin havaitaan, että

\(X_{(1)}\) on isompi kuin \(Y\)-havainnot 0 kertaa eli \(\sum_{i=1}^{n}D_{ij}^{(2)}=0\)
\(X_{(2)}\) on isompi kuin \(Y\)-havainnot 1 kertaa eli \(\sum_{i=1}^{n}D_{ij}^{(2)}=1\)
\(X_{(3)}\) on isompi kuin \(Y\)-havainnot 1 kertaa eli \(\sum_{i=1}^{n}D_{ij}^{(2)}=1\)
\(X_{(4)}\) on isompi kuin \(Y\)-havainnot 4 kertaa eli \(\sum_{i=1}^{n}D_{ij}^{(2)}=4.\)

Näin ollen \(X\)-havainnot “voittavat” \(Y\)-havainnot yhteensä 6 kertaa eli \(U_2=6\). Testisuureeksi saadaan näin ollen \(Z_2= \frac{6 - \frac{1}{2}4\cdot 8}{\sqrt{\frac{1}{12}4\cdot 8(4+8+1)}}=-1.698.\) Testin kriittinen arvo saadaan R-komennolla ‘qnorm(0.005, mean=0, sd=1)’, josta lukuarvoksi saadaan -2.575829. Nollahypoteesi jää näin ollen voimaan. P-arvo saadaan R-komennolla 2*pnorm(-1.698, mean=0, sd=1), josta saadaan p-arvoksi 0.0895 ja nollahypoteesi jää näin ollen voimaan myös p-arvotarkastelun perusteella.

6.3.5 \(\chi^2\) -yhteensopivuustesti aka (yleinen) jakaumatesti

Käytännön tilastoaineiston analysoinnissa tehdään usein oletuksia tai (valistuneita) arvauksia aineiston jakaumasta. Näitä jakaumaoletuksia tarvitaan esimerkiksi parametristen testien taustaoletuksiin. Tällaisille jakaumaoletuksille on olemassa erillinen jakaumatesti, joka perustuu suuruusjärjestetyn havaintoaineiston luokitteluun ja testissä tarkastellaan oleellisesti sopivatko havaitut luokkafrekvenssit siihen mitä ne jakaumaoletusten mukaisesti pitäisi olla. Jotta teoreettiset luokkafrekvenssit voidaan laskea, tarvitsee aineistosta usein estimoida oletetun jakauman tarvitsemat parametrit. Huomaa kuitenkin, että jakaumatestissä ei siis testata jakauman parametrin/parametrien arvoja - kuten esimerkiksi t-testissä - vaan ainoastaan valittua jakaumaoletusta, esimerkiksi normaalisuutta. .

Taustaoletus (yleinen hypoteesi): havainnot \(X_i\) ovat riippumattomia

Testattava hypoteesi

\(H_0\): havainnot noudattavat oletettua jakaumaa
\(H_1\): havainnot eivät noudata oletettua jakaumaa

Testisuure
Määritellään havainnoille \(m\) kappaletta toisensa poissulkevaa luokkaa (vrt. histogrammin luokat). Testisuure on näin määritellen \[\chi^2 =\sum_{k=1}^{m}\frac{(O_k - E_k)^2}{E_k},\] jossa \(O_k\) on havaittu (Observed) frekvenssi ja \(E_k\) on odotettu (Expected) oletetun jakauman mukainen frekvenssi luokassa \(k\). Näin määritellen testisuureelle on voimassa approksimatiivisesti \(\chi^2 \sim_a \chi^2 (m-1-p),\) jossa \(p\) on estimoitujen parametrien lukumäärä, joka tarvitaan määrittämään oletetun jakauman mukaiset luokkafrekvenssit. Tässä testissä vaihtoehtoiset hypoteesit ovat käytännössä aina yksisuuntaisia.

Jos siis jakaumatestiä tehdään esimerkiksi normaalijakaumalle, on otoksesta ensin estimoitava normaalijakauman kaksi parametriä eli odotusarvo (\(\mu\)) ja varianssi (\(\sigma^2\)), jolloin \(p=2\) ja odotetut havaintolukumäärät luokkaväleissä lasketaan perustuen näihin kahteen parametriin. Jos vastaavasti jakaumatesti tehdään eksponenttijakaumalle, niin otoksesta estimoidaan parametri \(\lambda\), jolloin \(p=1\) ja odotetut havaintolukumäärät luokkaväleissä lasketaan perustuen tähän estimoituun parametriin.

Testin ominaisuuksia

Toimii riittävän hyvin, jos odotetut luokkafrekvenssit \(E_k > 5\). Tässä kohdassa on siis huomattava, että pienellä havaintoaineistolla luokkien lukumääränkin tulee olla pieni (luokkavälin leveys suuri), jotta testiä on mahdollista käyttää.
Testiä yhteensopivuudelle voidaan käyttää erityisesti testaamaan tyypillisen \(t\)-testin yleisen hypoteesin normaalisuusoletuksen voimassaoloa. Normaalisuudelle on myös olemassa erityisiä lisätestejä normaalisuudelle, mutta eivät kuulu tämän kurssin sisältöön

Esimerkki 6.3.5.1
Erään kansainvälisen logistiikkayrityksen johto alkoi epäilemään erään lentoaseman logistiikkaketjun tuotantoa ja erityisesti aiheuttavatko työntekijät tahallaan tai välillisesti ylimääräisiä ketjun toimintahäiriöitä viikonlopuille ns. “viikonloppuefektin” takia. Oheisessa taulukossa on vuoden ajalta raportoidut eri viikonpäiville osuneet vikatilanteet ko. lentoaseman logistiikkayksiköissä.

\[ \begin{array}{c|c|c|c|c|c|c} Ma & Ti & Ke & To & Pe & La & Su & Yht\\ \hline 64 & 57 & 53 & 50 & 48 & 62 & 58 & 392 \end{array} \]

Tutki tilastollisesti viikonloppuefektin ilmenemistä. Käytä viiden prosentin merkitsevyystasoa.

Ratkaisu
Käytetään jakaumatestiä vastaamaan kysymykseen “kuinka jakauma sopii ajatukseen tasaisesta virhetahdista eli kuinka hyvin tasajakauma sopii aineistoon?”

Tasajakauman mukaisesti virheiden jakauma olisi

\[ \begin{array}{c|c|c|c|c|c|c} Ma & Ti & Ke & To & Pe & La & Su & Yht\\ \hline 56 & 56 & 56 & 56 & 56 & 56 & 56 & 392 \end{array} \]

Testisuure on nyt \(\chi^2 = \sum_{k=1}^{m}\frac{(O_k - E_k)^2}{E_k} = \frac{(64 - 56)^2}{56} + \ldots + \frac{(58-56)^2}{56} = 3.821429\).

Testin vapausasteet = \(m-1-p = 7-1-0 = 6\) sillä tässä ei ole yhtään estimoitua parametria. Kriittinen arvo saadaan R-komennollaqchisq(0.95, df=6), josta saadaan 12.592. Koska testisuure on huomattavasti pienempi kuin kriittinen arvo jätetään nollahypoteesi voimaan.

Testin p-arvo saadaan R-komennolla 1-pchisq(3.821429, df=6), josta saadaan 0.700827. Nollahypoteesi tasaisesta virhetahdista jätetään voimaan myös p-arvotarkastelun kautta.

6.3.6 \(\chi^2\) homogeenisyystesti

Varsin usein otoskohteet voidaan ryhmitellä jonkun taustamuuttujan suhteen ja tällöin tyypillinen kysymys on ryhmittelyn homogeenisyys eli samoin jakautuneisuus taustamuuttujan tai taustamuuttujien suhteen. Tähän kysymykseen vastaa homogeenisyystesti.

Taustaoletus (yleinen hypoteesi): ryhmäkohtaiset satunnaisotokset poimittu toisistaan riippumattomasti ja ryhmiä on \(r\) kappaletta

Testattava hypoteesi

\(H_0\): havainnot jakautuvat jokaisessa ryhmässä samalla tavalla
\(H_1\): havainnot eivät jakaudu jokaisessa ryhmässä samalla tavalla

Testisuure Määritellään aluksi jokaiselle ryhmälle \(c\) kappaletta toisensa poissulkevaa luokkaa (vrt. 2-ulotteinen histogrammi). Testisuure \(\chi^2\) muodostetaan \(r*c\) -kokoiseen frekvenssitaulukkoon perustuen \[\chi^2 = \sum_{i=1}^{r}\sum_{j=1}^{c}\frac{(O_{ij} - E_{ij})^2}{E_{ij}},\] jossa \(O_{ij}\) on havaittu (Observed) frekvenssi solussa \((i,j)\) ja odotetut (Expected) frekvenssit \((E_{ij})\) saadaan laskemalla osuudet rivi- ja sarakesummiin perustuen: \[E_{ij}=\frac{ (\sum_i O_{ij}) \cdot (\sum_j O_{ij})}{\sum_i \sum_j O_{ij}}\] eli laskemalla rivi- ja sarakesummien tulo jaettuna kokonaissummalla. Näin määritellen testisuureelle on voimassa approksimatiivisesti \(\chi^2 \sim_a \chi^2 ((r-1)(c-1)).\) Tässä testissä vaihtoehtoiset hypoteesit ovat käytännössä aina yksisuuntaisia.

Testin ominaisuuksia

Toimii riittävän hyvin, jos odotetut luokkafrekvenssit riittävän suuria \(E_{ij} > 1\). Käytännön tarkasteluissa tämä tarkoittaa sitä, että luokkien lukumäärä \(c\) pitää valita sellaiseksi, että ko. ehto täyttyy.

Esimerkki 6.3.6.1
Tutkimukseen oli riippumattomasti kerätty miesten ja naisten näkemyksiä työn alla olevasta MBA-tutkinnosta, ja tutkimuksessa haluttiin tutkia onko sukupuolella vaikutusta seuraaviin päämääriin.

Tutkintopaperin saaminen: tärkeä (merk: TT) ja ei-tärkeä (merk: TE)
Opiskeluprosessi: tärkeä (merk: OT) ja ei-tärkeä (merk: OE)

Kyselytutkimuksesta seuraava aineisto:

\[ \begin{array}{c|c|c|c|c} & TT & TE & OT & OE \\\hline Naiset & 141 & 73 & 207 & 261 \\ \hline Miehet & 316 & 74 & 56 & 130 \end{array} \]

Tutki testin avulla suhtautuvatko miehet ja naiset eri tavoin päämääriin? Käytä merkitsevyystasoa \(\alpha=0.05\).

Ratkaisu
Käytetään homogeenisyystestiä: ts. onko miesten ja naisten jakaumat samanlaisia. Nyt testin rakenteen mukaan

Ryhmät = {naiset, miehet} eli \(r=2\)
Luokat = {TT, TE, OT, OE} eli \(c=4\)

Lasketaan aluksi alkuperäisen aineiston rivi- ja sarakesummat (eli marginaalijakaumat)

\[ \begin{array}{c|c|c|c|c|c} & TT & TE & OT & OE & Summa\\\hline Naiset & 141 & 73 & 207 & 261 & 682 \\ \hline Miehet & 316 & 74 & 56 & 130 & 576 \\ \hline Summa & 457 & 147 & 263 & 391 & 1258 \end{array} \]

Nollahypoteesin mukaiset odotetut frekvenssit saadaan laskettua rivi- ja sarakesummien avulla seuraavasti

\[ \begin{array}{c|c|c|c|c} & TT & TE & OT & OE \\ \hline \hline \text{Naiset} &\frac{457*682}{1258} & \frac{147*682}{1258} & \frac{263*682}{1258} & \frac{391*682}{1258}\\ \hline \text{Miehet} & \frac{457*576}{1258} & \frac{147*576}{1258} & \frac{263*576}{1258} & \frac{391*576}{1258} \end{array} \] Odotettujen frekvenssien taulukko on siis \[ \begin{array}{c|c|c|c|c} & TT & TE & OT & OE \\ \hline \text{Naiset} & 247.75 & 79.69 & 142.58 & 211.97 \\ \hline \text{Miehet} & 209.25 & 67.31 & 120.42 & 179.02 \end{array} \]

Testisuureeksi saadaan nyt \(\chi^2 = \frac{(141-247.75)^2}{247.75} + \frac{(73-79.69)^2}{79.69} + \ldots + \frac{(130-179.02)^2}{179.02} = 190.0139.\)

Testin vapausaste on \((r-1)*(c-1)=1*3=3\). Kriittinen arvo saadaan R-komennolla qchisq(0.95, df=3), josta saadaan lukuarvoksi 7.8147. Koska testisuure on huomattavasti suurempi kuin kriittinen arvo, niin nollahypoteesi hylätään ja vaihtoehtoinen hypoteesi astuu voimaan.

Testin p-arvo saadaan R-komennolla 1-pchisq(190.0139, df=3) josta saadaan lukuarvoksi 0 eli nollahypoteesi hylätään.

6.3.7 \(\chi^2\) riippumattomuustesti

Tyypillinen käytännön kysymys on kahden tekijän riippumattomuus eli voidaanko kahta tekijää tarkastella erillisinä.

Taustaoletus (yleinen hypoteesi): riippumaton satunnaisotos ja havaintoyksiköt luokiteltu kahden tekijän A ja B suhteen.

Testattava hypoteesi

\(H_0\): Tekijät A ja B ovat riippumattomia
\(H_1\): Tekijät A ja B eivät ole riippumattomia.

Testisuure
Luokitellaan aluksi havainnot A:n suhteen (esim. ikäryhmät) toisensa poissulkeviin luokkiin, joita on \(r\) kappaletta ja B:n suhteen (esim. asuinalueet) toisensa poissulkeviin luokkiin, joita on \(c\) kappaletta. Testisuure \(\chi^2\) perustuu \(r*c\) -kokoiseen frekvenssitaulukkoon: \[\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c}\frac{(O_{ij} - E_{ij})^2}{E_{ij}},\] jossa \(O_{ij}\) on vastaava havaittu ja \((E_{ij})\) on odotettu frekvenssi solussa \((i,j)\) kuin aiemmin. Näin määritellen testisuureelle \(\chi^2\) on voimassa approksimatiivisesti \(\chi^2 \sim_a \chi^2 ((r-1)(c-1))\). Tässä testissä vaihtoehtoiset hypoteesit ovat käytännössä aina yksisuuntaisia.

Testin ominaisuuksia:

Toimii riittävän hyvin, jos odotetut luokkafrekvenssit riittävän suuria \(E_{ij} > 1\)

Esimerkki 6.3.7.1
Tutkimukseen oli kerätty kansanedustajaehdokkaiden mielipiteitä erääseen kysymykseen kolmen puolueen ehdokkailta ja saatiin seuraava aineisto:

\[ \begin{array}{c|c|c|c} & Puolesta & Neutraali & Vastaan \\ \hline KOK & 67 & 14 & 39 & \\ \hline SDP & 58 & 13 & 85 & \\ \hline PS & 62 & 7 & 63 \end{array} \]

Ovatko vastaukset kysymykseen riippumattomia puolueesta? Käytä merkitsevyystasoa \(\alpha=0.01\).

Ratkaisu
Käytetään riippumattomuustestiä (huom kysymys “onko vastaus riippumaton puoluekannasta?”). Nyt testin rakenteen mukaan

Ryhmät = {KOK, SDP, PS} eli \(r=3\)
Luokat = {Puolesta, Neutraali, Vastaan} eli \(c=3\)

Nollahypoteesin mukaiset odotetut frekvenssit saadaan laskettua rivi- ja sarakesummien avulla seuraavasti

\[ \begin{array}{c|c|c|c} & Puolesta & Neutraali & Vastaan \\ \hline \hline KOK &\frac{187*120}{408} & \frac{34*120}{408} & \frac{187*120}{408} \\ \hline SDP & \frac{187*156}{408} & \frac{34*156}{408} & \frac{187*156}{408} & \\ \hline PS & \frac{187*132}{408} & \frac{34*132}{408} & \frac{187*132}{408} & \end{array} \]

Odotettujen frekvenssien taulukko on siis

\[ \begin{array}{c|c|c|c} & Puolesta & Neutraali & Vastaan \\ \hline \hline KOK & 55 & 10 & 55 \\ \hline SDP & 71.5 & 13 & 71.5 & \\ \hline PS & 60.5 & 11 & 60 & \end{array} \]

Käyttäen havaittuja ja odotettuja frekvenssejä testisuureeksi saadaan nyt \(\chi^2 = \frac{(67-55)^2}{55} + \frac{(14-10)^2}{10} + \ldots + \frac{63-60.5)^2}{60.5} = 15.56567\)

Testin vapausaste on \((r-1)(c-1)=2*2=4\). Kriittinen arvo saadaan R-komennolla qchisq(0.99, df=4), josta saadaan lukuarvoksi 13.27670414. Koska testisuure on suurempi kuin kriittinen arvo, nollahypoteesi hylätään ja vaihtoehtoinen hypoteesi astuu voimaan. Testin p-arvo saadaan R-komennolla 1-pchisq(15.56567,df=4), josta saadaan lukuarvoksi 0.0037.

6.3.8 Lisätietoa: Homogeenisyys vs riippumattomuustesti

Vaikka numeerinen proseduuri homogeenisyystestillä ja riippumattomuustestillä ovatkin samanlaiset, niin testausasetelmat poikkeavat näissä kuitenkin oleellisesti:

Homogeenisyystesti	Riippumattomuustesti
Tarkastellaan joukon jakautumista eri ryhmiin, kun outputtien luokittelu on tehty yhden tekijän suhteen	Tarkastellaan kahden tekijän (A ja B) riippuvuutta, kun havainnot luokiteltu ristiin
Havaintoaineisto koostuu riippumattomista ryhmäkohtaisista otoksista	Havaintoaineisto koostuu yhdestä satunnaisotoksesta
Ryhmäkohtaiset otoskoot \(n_i\) ja kokonaislukumäärä \(n\) ovat kiinteitä. Sattuma määrä miten havainnot jakautuvat luokkiin ryhmien sisällä	Vain havaintojen kokonaislukumäärä \(n\) on kiinteä. Sattuma määrää miten havainnot jakautuvat luokkiin