6 Hypoteesintestausta syvemmin
Tilastotieteen perusteiden kurssilla on tutustuttu jo hypoteesintestauksen perusasetelmaan, joten tässä materiaalissa aiheen fundamentit käydään vain hyvin kursorisesti läpi. Pääpaino tässä kappaleessa on laajentaa testipankkia ja tutustua erityisesti ns. epäparametrisiin testeihin. Tämän lisäksi pyritään syventämään yleistä ymmärrystä hypoteesintestauksesta tyypillisen suoraviivaisen mekaanisen lähestymisen ohella.
6.1 Pohjia
Tilastollinen hypoteesintestaus on työkalu vastaamaan kysymykseen jonkin väittämän tilastollisesta paikkansapitävyydestä havaintojen perusteella. Testauksessa määritetään yhdellä tavalla yhteensopivuutta tai “uskottavuutta” saada tietty realisaatio tai havainto(sarja), kun taustalle oletetaan tietty väittämän mukainen mekanismi. Väitettä tutkitaan numeerisesti määrittämällä ensiksi väitettä vastaava testisuure, joka toimii yhteensopivuuden mittarina. Kun teorian nojalla tiedetään testisuureen jakauma, niin tämän perustuen lasketaan todennäköisyys, että kuinka todennäköistä on saada vähintään yhtä poikkeava testisuureen arvo testisuureen oletetusta jakaumasta täysin sattumalta.
Esimerkki 6.1.1 (testauksen perusajatusta demonstroiva esimerkki)
Oletetaan, että perinteisellä kivi-sakset-paperi (KSP) pelissä voiton todennäköisyys on 0.5 (kun peli pelataan aina loppuun). Mentalisti Pinja on voittanut 50 KSP:stä nyt 48. Hypoteesintestauksessa voitaisiin tutkia esimerkiksi, onko Pinjan voittotodennäköisyys tavallisesta poikkeava. Tämä tehdään muodostamalla testisuure voitettujen pelien suhteelliselle osuudelle ja laskemalla todennäköisyys sille, että testisuure on vähintään yhtä poikkeava perustuen oletukseen reilusta nopasta.
6.1.1 Hypoteesintestaukseen tarvittavat elementit
Tilastollinen testi. Tilastollisia testejä on rakennettu paljon erilaisiin tilanteisiin. Vastaavanlaisia testejä kuin tässä materiaalissa katetaan, on yleisessä käytössä muutamia kymmeniä (ks. lyhyt lista perustesteistä). Näiden lisäksi moniin näistä testeistä on olemassa pieniä modifikaatioita, esimerkiksi testaukseen pieneen otokseen perustuen. Vaikka osa testeistä onkin käyttöaiheiltaan osin samankaltaisia, niin pääosin eri testit sopivat kaikki omanlaiseen tilanteeseen, ja oikean testin valinta onkin hyvin oleellinen vaihe tilastollista analyysiä. Käyttöaiheeltaan ja vaatimuksiltaan vääränlaisen testin valinta on lähtökohtaisesti vähintäänkin huonoa tiedettä ja useimmiten yksinkertaisesti väärin. Myöskin opportunistinen “testishoppailu” parhaan tuloksen tavoittelemiseksi on useimmiten vielä tuomittavampaa.
Nollahypoteesi \(H_0\) on testattava väittämä, joka todisteiden valossa joko hylätään (riittävästi näyttöä hylkäyksestä) tai ei hylätä (ei riittävästi näyttöä hylkäyksestä). Nollahypoteesin valinnassa noudatetaan yleisesti konservatiivisuusperiaatetta, joka tarkoittaa käytännössä, että nollahypoteesit ovat muotoa “ei ole tavallisesta poikkeava”, “kaikki on samanlaista”, “mikään ei ole muuttunut” tai jotain vastaavaa. Tämän periaatteen mukaan yllä olevassa demo-esimerkissä nollahypoteesi asetettaisiin muotoon “\(H_0\): voittotodennäköisyys on 0.5”.
Vaihtoehtoinen hypoteesi \(H_1\) on nollahypoteesin komplementti eli vaihtoehtoinen selitysmalli. Tämä hypoteesi astuu voimaan, jos nollahypoteesin mukainen väittämä hylätään testissä eli kun havainnot eivät ole enää linjassa nollahypoteesin kanssa. Jos nollahypoteesi on yleistä muotoa, että \(H_0: \gamma = \gamma_0\) (ylläolevassa esimerkissä: Pinjan voittotodennäköisyys \(=0.5\)), niin vaihtoehtoinen hypoteesi voi olla kahta muotoa
- Kaksisuuntainen vaihtoehtoinen hypoteesi \(H_1\): \(\gamma \neq \gamma_0\) (yllä Pinjan voittotodennäköisyys \(\neq 0.5\))
- Yksisuuntainen vaihtoehtoinen hypoteesi \(H_1\): \(\gamma < \gamma_0\) tai \(H_1: \gamma > \gamma_0\) (ylläolevassa esimerkissä Pinjan voittotodennäköisyys \(<0.5\) tai Pinjan voittotodennäköisyys \(>0.5\))
Vaikka yksisuuntaiset vaihtoehtoiset hypoteesit vaikuttavatkin ehkä joissain käytännön tilanteissa houkuttelevilta vaihtoehdoilta (esimerkiksi yo. esimerkissä olisi houkuttelevaa testata Pinjan parempaa voittotodennäköisyyttä), niin yksisuuntaisilla vaihtoehtoisilla hypoteeseilla on kuitenkin muutamia teoreettisia ja käytännöllisiä ongelmia. Ilman painavia syitä on usein turvallisempaa tarkastella kaksisuuntaisia vaihtoehtoisia hypoteeseja ja lähtökohtaisesti tässä materiaalissa (ja tämän kurssin puitteissa) tarkastellaan aina oletusarvoisesti kaksisuuntaisia vaihtoehtoisia - yksisuuntaisia vaihtoehtoisia hypoteeseja käytetään vain korkeintaan huolellisesti harkituissa erityistilanteissa.Yleinen hypoteesi. Testauksessa tehdään aina jotain teoreettisia taustaoletuksia, esimerkiksi havaittujen muuttujien teoreettisesta jakautumisesta tai taustalla olevasta otannasta. Näitä taustaoletuksia kutsutaan usein nimellä yleinen hypoteesi. Tällainen on esimerkiksi oletus havaintojen normaalijakaumasta. Tässä yhteydessä on huomattava, että datan tarkoituksellinen “puhdistaminen” tai muu väkivaltainen käsittely erilaisin “muunnoksin” testin yleisen hypoteesin vaatimuksiin on lähtökohtaisesti vähintäänkin huonoa tiedettä.
Merkitsevyystaso \(\alpha\) on testissä käytetty sattuman (kipu)raja, joka toimii vedenjakajana sille, hylätäänkö nollahypoteesi vai ei:
- Jos testin \(p\)-arvo on pienempi kuin \(\alpha\) tai testisuureen arvo on \(\alpha\):n määrittämällä hylkäysalueella, niin nollahypoteesi hylätään
- Jos testin \(p\)-arvo on suurempi tai yhtä suuri kuin \(\alpha\) tai testisuureen arvo ei ole \(\alpha\):n määrittämällä hylkäysalueella, niin nollahypoteesia ei hylätä.
Tyypillinen oppikirjavalinta merkitsevyystasolle on \(\alpha=0.05\) ja tätä käytetään varsin usein myös tieteellisissä töissä, vaikka tämän yhden “standardi”merkitsevyystason käyttäminen onkin varsin ongelmallista.
6.1.2 Hypoteesintestauksen kritiikki ja ongelmat
Hypoteesintestaus on yksi eniten käytetyistä tilastollisista menetelmistä, ja ehdottomasti eniten väärinkäytetty tilastollinen menetelmä, jolla on myös joitakin perustavaa laatua olevia teoreettisia ongelmia. Seuraavassa on listattu näistä tärkeimpiä.
1. Kaikilla tilastollisilla testeillä on omat taustaoletuksensa, rajoitteensa
ja käyttökohteensa, jotka kuitenkin käytännössä valitettavan usein unohdetaan tai niistä
ei olla tietoisia riittävällä tasolla. Tämä pätee erityisesti hypoteesintestaukseen, jossa reunaehtojen pätevyys voi olla erittäin tärkeää. Hyvään testausproseduuriin kuuluu ehdottomasti
testikohtaisten taustaoletusten ja rajoitteiden voimassaolon kriittinen tarkastelu.
2. Testausproseduurissa lasketaan todennäköisyyttä saada nollahypoteesin mukaisessa
tilanteessa testisuureelle vähintään yhtä poikkeava havainto kuin on havaittu.
Todisteena nollahypoteesia vastaan käytetään siis testisuureen
mahdollisia arvoja, jotka olisivat voineet tapahtua, mutta eivät
tapahtuneet. Käytännön elämässä tämä voisi kärjistäen tarkoittaa
esimerkiksi sitä, että poliisi ylinopeussakkoa määrittäessään sakottaisi
myös mahdollisista suuremmista ylinopeuksista, mutta joihin kuljettaja
ei ole syyllistynyt.
3. Tilastollisessa hypoteesintestauksessa lasketaan oleellisesti
uskottavuutta suureelle havainnot | testattava väittämä, kun oikeasti
kiinnostava suure olisi testattava väittämä | havainnot. Tämä on yksi esimerkki
ongelmasta, jota tilastotieteessä kutsutaan nimellä Confusion of the
inverse.
4. Merkitsevyystason \(\alpha\) tyypilliset valinnat perustuu ikivanhoihin puhtaan
tilastotieteellisiin konventioihin, jotka eivät useinkaan ota huomioon esimerkiksi
substanssikohtaisia asioita. Useimmiten mantranomaisesti käytettävä
merkitsevyystaso \(\alpha=0.05\), on monissa tilanteissa melko vaatimaton merkitsevyystaso, mutta tästä huolimatta
mm. monet tieteelliset lehdet edellyttävät tätä. Tämä vaatimaton merkitsevyystaso
mahdollistaa helposti väärien signaalien löytymisen. Tämän asian on todennut
myös tilastollisen hypoteesintestauksen isähahmo Ronald
Fisher, jonka
terminologiassa merkitsevyystaso \(\alpha=0.05\) on “low standard of
significance”.
5. Tilastollisen hypoteesintestauksen tuottama dikotominen vastaus
(hylätään tai ei-hylätä nollahypoteesi) voidaan nähdä hyvin latteana ja
yliyksinkertaistavana vastauksena alkuperäiseen kysymykseen tutkittavaan
substasssihypoteesiin. Tällöin myös hieman valittua merkitsevyystasoa \(\alpha\)
suuremmat tulokset hylätään aivan samalla tavalla kuin hyvin
paljon suuremmat. Vastaavasti päätelmät esimerkiksi \(p\)-arvoilla
\(0.04994\) ja \(0.05006\) tuottavat erilaiset lopputulemat
hypoteesintestauksessa merkitsevyystasolla \(\alpha=0.05\) vaikka luvut
ovat melko lailla oleellisesti samoja. Käytännön aineistot ja analyysi
on lähes aina altis esimerkiksi erilaisille inhimillisille
virheille ja muulle satunnaisuudelle. Pienet vaihtelut kuuluvat aina
asiaan, ja tällöin myös laskettu \(p\)-arvokin vaihtelee jonkin verran.
Tuijottaminen pelkästään muutamiin pieniin desimaaleihin ei tällöin ole
välttämättä kokonaisuuden kannalta oleellista.
6. Yksi tyypillinen testausasetelma on tarkastella kahden otoksen
samanlaisuutta, jolloin hypoteesi on muotoa \(H_0:\gamma_1=\gamma_2\). Esimerkkinä tästä
t-testi odotusarvojen samanlaisuudelle.
Testausasetelmassa testataan siis äärelliseen otokseen perustuen ovatko
suureet (esim. odotusarvot) samat. Tällainen hypoteesi on matemaattisen
teorian näkökulmasta tarkasteltuna kuitenkin hyvin kyseenalainen, sillä
teorian mukaan jatkuville muuttujille tällaisen tapahtuman
todennäköisyys on täsmällisesti katsoen nolla, sillä otoksissa on aina
luonnollista vaihtelua.
7. Tilastollista hypoteesintestausta tehdään hyvin monissa substanssianalyyseissä usein
pakollisena normityökaluna ja analyysin viimeisenä sanana. Tilastollisten testien
pitäisi kuitenkin olla lähtökohta tulosten tulkinnalle - ei päätepiste. Pelkkä pieni \(p\)-arvo ei ole
yksinään riittävä tulos. Lisäksi tarvitaan substanssin tuntemusta ja
analyysiä tulosten käytännön merkityksestä. Vaikka hypoteesintestauksesta saadaankin
ehkä tilastollisesti merkittäviä tuloksia, niin todellisuudessa kannattaa aina muistaa, että
tilastollinen merkitsevyys on eri asia kuin merkittävyys substanssin kannalta.
8. Hypoteesintestauksessa usein laskettava \(p\)-arvo on tilastotieteen yksi väärinymmärretyimmistä, ja joskus myös väärinkäytetyimmistä käsitteistä. Laskettu \(p\)-arvo voi suurella aineistokoolla olla hyvinkin pieni, vaikka mitään todellista efektiä ei ole olemassa ja \(p\)-arvo on siis otoskoon suhteen sensitiivinen suure. Tämän lisäksi p-arvoa on mahdollista opportunistisesti vääristellä (ks. p-hacking). Vääristelyä on toki mahdollista tehdä myös minkä tahansa muunkin tilastollisen menetelmän puitteissa, mutta p-arvojen kohdalla tätä on valitettavasti tapahtunut suhteellisen paljon.
9. Hypoteesintestauksessa ei varsinaisesti koskaan hyväksytä mitään hypoteesia. Testauksessa tutkitaan numeerisia todisteita sille, että nollahypoteesi ei pidä paikkansa. Mikäli sellaisia ei löydetä, niin nollahypoteesi jätetään voimaan, mutta sitä ei siis missään vaiheessa kuitenkaan periaatteessa hyväksytä. Mikäli todisteita nollahypoteesia vastaan löydetään, niin tällöinkin mielipide vaihdetaan nollahypoteesista vaihtoehtoiseen hypoteesiin, mutta tällöinkään vaihtoehtoista hypoteesia ei tarkkaan ottaen varsinaisesti hyväksytä.
6.1.3 Välisoitto
Yllä olevasta perustellusta ja fundamentaalisesta kritiikistä huolimatta perinteistä tilastollista hypoteesintestausta käytetään edelleen hyvin laajasti. Hypoteesintestaukselle on kehitetty myös muita osin kestävämpiä ja nykyaikaisempia vaihtoehtoja (ks. esim. Bayes-kerroin/Bayes Factor). Nämä eivät kuitenkaan ole vielä toistaiseksi päässeet laajempaan käyttöön, jonka takia näitä ei esitellä tässä materiaalissa.
Seuraavassa käydään läpi tämän kurssin aseman kannalta yleisimmät tilastolliset testit tausta-asetelmineen ja rajoitteineen. Lineaariseen regressioon liittyvät testit esitellään myöhemmin tässä dokumentissa. Testien teknismekaaninen (R-)toteutus sekä tausta-asetelmien käytännön tarkistus on jätetty tästä kirjallisesta materiaalista pois ja ne on sisällytetty kurssinaikaiseen muuhun sisältöön, jossa sivutaan myös jonkin verran yllä mainittuja tilastolliseen hypoteesintestaukseen liittyviä metatietoja ja -taitoja.
6.2 Parametrisiä testejä
6.2.1 Studentin t-testi odotusarvon lukuarvolle (yksi otos)
Studentin t-testi yhdelle otokselle on tyypillinen tapa testata, sopiiko havaittu yhden otoksen jakauma taustaoletukseen odotusarvon mielessä.
Taustaoletus (yleinen hypoteesi): havainnot \(X_i\) on saatu riippumattomasti ja ne noudattavat jakaumaa \(X_i\sim N(\mu,\sigma^2)\), jossa varianssi oletetaan tuntemattomaksi. Havainnot ovat vähintään intervalliasteikollisia.
Testattava hypoteesi: testissä tutkitaan aineistoon perustuen, onko (normaalisti jakautuneen) havaintoaineiston odotusarvo suuruudeltaan tietty kiinteä annettu arvo \(\mu_0\)
- \(H_0: \mu = \mu_0\)
- Kaksisuuntainen \(H_1: \mu \neq \mu_0\)
- Yksisuuntainen \(H_1: \mu > \mu_0\) tai \(H_1: \mu < \mu_0\)
Testisuure on muotoa \[t=\frac{\bar{X}-\mu_0}{s/\sqrt{n}}\] jossa \(\bar{X}= \frac{1}{n}\sum_{i=1}^{n} X_i\) on havaintojen aritmeettinen keskiarvo ja \(s= \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(X_i -\bar{X})^2}\) on otoskeskihajonta.
Näin määritellen testisuure \(t\) noudattaa referenssijakaumaa \(t \sim t(n-1)\) ja p-arvot tai kriittiset pisteet voidaan laskea tästä jakaumasta.
Testin ominaisuuksia
- Testi olettaa havaintojen normaalisuuden.
- Keskeisen raja-arvolauseen perusteella testiä voidaan käyttää myös ei-normaalijakautuneiden satunnaismuuttujien odotusarvon testaamiseen, mikäli havaintoja on riittävästi (yksi peukalosääntö \(n>40\)) ja jakauma ei ole kovin vino. Absoluuttista ja yleistä kipurajaa tälle poikkeamalle normaalijakaumasta ei ole.
6.2.2 Studentin t-testi odotusarvojen yhtäsuuruudelle (kaksi otosta)
Studentin t-testi kahdelle otokselle testaa onko havaitut kahteen otokseen perustuvat jakaumat samankaltaisia odotusarvon mielessä.
Taustaoletus (yleinen hypoteesi): keskenään riippumattomat havaintosarjat \(X_i, i = 1,...,n_1\) ja \(Y_i, i=1,...,n_2\) noudattavat jakaumaa \(X_i \sim N(\mu_1,\sigma_{1}^2)\) ja \(Y_i \sim N(\mu_2,\sigma_{2}^2)\) ja sarjojen sisällä havainnot ovat riippumattomia. Tässä kumpaakaan varianssia \(\sigma_{1}^2\), \(\sigma_{2}^2\) ei tunneta ja ne voivat olla erisuuria. Havaintoaineistojen koot \(n_1\) ja \(n_2\) voivat myös olla erisuuria. Havainnot ovat vähintään intervalliasteikollisia.
Testattava hypoteesi: testissä tutkitaan aineistoon perustuen, onko (normaalisti jakautuneiden) havaintoaineistojen odotusarvot \(\mu_1\) ja \(\mu_2\) samoja
- \(H_0 : \mu_1 = \mu_2\)
- Kaksisuuntainen \(\mu_1 \neq \mu_2\)
- Yksisuuntainen \(H_1: \mu_1 > \mu_2\) tai \(H_1: \mu_1 < \mu_2\)
Testisuure on muotoa
\[t_A =
\frac{(\bar{X}-\bar{Y})}{\sqrt{\frac{s_{1}^{2}}{n_1} +
\frac{s_{2}^{2}}{n_2}}},\] jossa \(\bar{X} =
\frac{1}{n_1}\sum_{i=1}^{n_1}X_i\) on \(X_i\) havaintojen
aritmeettinen keskiarvo ja \(s_1^{2} =\frac{1}{n_1-1}\sum_{i=1}^{n_1}(X_{i}-\bar{X})^2\)
otosvarianssi. Suureet \(\bar{Y}\) ja \(s_2^{2}\)
määritellään vastaavasti havaintosarjalle \(Y_i\).
Näin määritellen on testisuureelle suurella otoskoolla voimassa \(t_A
\sim_a N(0,1)\), jossa ‘\(\sim_a\)’ tarkoittaa approksimatiivista jakautumista. Testin \(p\)-arvot ja kriittiset pisteet voidaan laskea tästä jakaumasta.
Tämän testin kohdalla on huomattava, että tässä testiasetelmassa testisuureelle käytetään kirjallisuudessa testisuureen referenssijakaumana usein myös \(t\)-jakaumaa normaalijakauman sijasta. Tätä testivarianttia kutsutaan yleisesti ns. Welchin testiksi. Tässä t-jakauman vapausasteiden laskenta on kuitenkin hieman hankalaa ja koska suurilla havaintomäärillä arvoilla t-jakauma lähestyy normaalijakaumaa, niin tämän kurssin puitteissa riittää käyttää referenssijakaumana standardinormaalijakaumaa, kunhan otoskoko on riittävän suuri.
Testin ominaisuuksia
- Testi olettaa havaintojen normaalisuuden
- Testiä voidaan käyttää rajoitetusti myös ei-normaaleille havainnoille, kunhan havaintolukumäärä on riittävän suuri (ks. yhden otoksen t-testi).
- Mikäli varianssien oletaan olevan jostain syystä samanlaisia, niin tällöin testisuureen jakajana voidaan käyttää ns. puulattua varianssia, joka määritellään \(s_p=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n1_+n_2-2}\) ja tällöin testisuure noudattaa t-jakaumaa vapausteella \((n_1+n_2-2)\).
6.2.3 Parivertailutesti odotusarvon erolle samanlaisissa olosuhteissa
Parivertailutestiä käytetään tutkimaan odotusarvon eroa ja muutosta samasta muuttujasta. Tyypillisesti tämä asetelma on kyseessä esimerkiksi, kun tarkasteltaviin muuttujiin kohdistetaan jokin toimenpide tai käsittely. Aineisto koostuu tällöin ennen ja jälkeen toimenpiteen havainnoista, jolloin jokaisesta muuttujasta on kaksi eriaikaista havaintoa. Toinen parivertailutestin käyttöaihe on esimerkiksi tilanne, jossa täsmälleen havainnot mitataan samanaikaisesti kahden eri mittarin taholta ja tavoitteena on tutkia mittareiden samankaltaisuutta.
Taustaoletus (yleinen hypoteesi): käytössä on yhtäpitkät havaintosarjat \(X_1\) ja \(X_2\) ja testissä tarkastellaan havaintoparien erotuksia \(D_i = X_{i1}-X_{i2}\), \(i=1,...,n\), jotka ovat keskenään riippumattomia ja jokainen \(D_i \sim N(\mu_D,\sigma_{D}^{2}\)). Muuttujille \(X_{1i}\) tai \(X_{2i}\) ei siis tässä oleteta normaalijakaumaa, mutta niiden erotukselle oletetaan. Havaintoparien erotukset ovat vähintään intervalliasteikollisia.
Testattava hypoteesi: testissä tutkitaan aineistoon perustuen, onko (normaalistijakautuneiden) erotusten odotusarvo \(\mu_d\) nolla
- \(H_0 : \mu_d = 0\)
- Kaksisuuntainen \(H_1: \mu_d \neq 0\)
- Yksisuuntainen \(H_1 : \mu_D > 0\) tai \(H_1: \mu_D < 0\)
Testisuure:
\[t = \frac{\bar{D}}{s_D / \sqrt{n}},\]
jossa \(\bar{D}= \frac{1}{n}\sum_{i=1}^{n} D_i\) on erotusten arimeettinen keskiarvo ja \(s_D =\sqrt{\frac{1}{(n-1)}\sum_{i=1}^{n}(D_i - \bar{D})^2}\) on
erotusten otoskeskihajonta. Näin määritellen on
testisuureelle voimassa \(t \sim t(n-1)\) ja testin kriittiset pisteet sekä p-arvot voidaan laskea tästä jakaumasta.
Tämän testin kohdalla tulee huomata, että tämä testi on luonteeltaan erilainen kuin aiemmin kuvattu testi odotusarvojen yhtäsuuruudelle, sillä tässä tarkastellaan havaintopareja. Vaikka testissä vaaditaankin havaintojen \(D_i\) olevan keskenään riippumattomia, niin saman yksikön \(X_{1i}\) ja \(X_{2i}\) riippuvat oletettavasti toisistaan, koska ne ovat samasta mittausyksiköstä. Käytännön tilanteessa tämä voisi tarkoittaa vaikka, että tutkimuksen kohteena olevat \(n\) henkilöä ovat keskenään riippumattomia, mutta yksittäisen henkilön ennen- ja jälkeen havainnot eivät ole riippumattomia sillä ne tulevat samalta henkilöltä.
Testin ominaisuuksia
- Testi olettaa erotusten normaalisuuden
- Testiä voidaan käyttää rajoitetusti myös ei-normaaleille havainnoille \(D_i\), kunhan havaintolukumäärä on riittävän suuri (ks. yhden otoksen t-testi).
6.2.4 \(\chi ^2\)-testi varianssin lukuarvolle (yksi otos)
Tätä testiä käytetään tutkimaan, sopiiko havaittu yhden otoksen jakauma taustaoletukseen varianssin mielessä.
Taustaoletus (yleinen hypoteesi): havainnot \(X_i,i=1,...,n\) on saatu riippumattomasti normaalijakaumasta \(N(\mu,\sigma^2)\). Havainnot ovat vähintään intervalliasteikollisia.
Testattava hypoteesi: testissä tutkitaan aineistoon perustuen, onko (normaalisti jakautuneen) havaintoaineiston varianssi suuruudeltaan tietty kiinteä annettu arvo \(\sigma_0^2\)
- \(H_0: \sigma^2 = \sigma_{0}^2\)
- Kaksisuuntainen \(H_1: \sigma^2 \neq \sigma_{0}^2\)
- Yksisuuntainen \(H_1: \sigma^2 > \sigma_{0}^2\) tai \(H_1: \sigma^2 < \sigma_{0}^2\)
Testisuure on muotoa
\[\chi^2 =\frac{(n-1)s^2}{\sigma_{0}^2},\] jossa \(s^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^2\) on otosvarianssi. Näin määritellen testisuureelle on voimassa \(\chi^2 \sim \chi^2 (n-1)\) ja testin p-arvot sekä kriittiset pisteet voidaan laskea tästä jakaumasta.
Testin ominaisuuksia:
- Testi olettaa erotusten normaalisuuden
- Testi ei toimi kovinkaan hyvin ei-normaalien havaintojen varianssin testaamiseen edes suurilla havaintomäärillä.
Käytännön konteksteissa tämän testin kohdalla pitäydytään usein vain yksisuuntaisissa vaihtoehtoisissa hypoteeseissa, sillä varianssin pienuus ei useinkaan ole ongelma.
6.2.5 F-testi varianssien yhtäsuuruudelle (kaksi otosta)
F-testi kahdelle otokselle testaa onko havaitut kahteen otokseen perustuvat jakaumat samankaltaisia varianssin mielessä
Taustaoletus (yleinen hypoteesi): keskenään riippumattomat havaintosarjat \(X_i, \, (i=1,...,n_1)\) ja \(Y_i,\, (i=1,...,n_2)\) noudattavat jakaumaa \(X_i \sim N(\mu_1,\sigma_{1}^2)\) ja \(Y_i \sim N(\mu_2,\sigma_{2}^2)\) ja sarjojen sisällä havainnot ovat riippumattomia. Tässä kumpaakaan odotusarvoa \(\mu_1\), \(\mu_2\) ei tunneta ja ne voivat olla erisuuria. Havaintoaineistojen koot \(n_1\) ja \(n_2\) voivat myös olla erisuuria. Havainnot ovat vähintään intervalliasteikollisia.
Testattava hypoteesi: testissä tutkitaan aineistoon perustuen, onko (normaalisti jakautuneiden) havaintoaineistojen varianssit samoja
- \(H_0: \sigma_{1}^2 = \sigma_{2}^2\) eli varianssit ovat samoja
- Kaksisuuntainen \(H_1: \sigma_1^2 \neq \sigma_2^2\)
- Yksisuuntainen \(H_1: \sigma_1^2 < \sigma_2^2\) tai \(H_1: \sigma_1^2 > \sigma_2^2\).
Testisuure:
Testisuure on muotoa \[F =\frac{s_{1}^2}{s_{2}^2},\] jossa \(s_1^{2} =\frac{1}{n_1-1}\sum_{i=1}^{n_1}(X_{i}-\bar{X})^2\) on \(X_i\)-havaintojen otosvarianssi ja vastaavasti \(s_2^{2}\) on \(Y_i\)-havaintojen otosvarianssi. Näin määritellen on testisuureelle voimassa \(F \sim F(n_1-1,n_2-1)\) ja testin p-arvot sekä kriittiset pisteet voidaan laskea tästä jakaumasta.
Huomaa, että testisuure voidaan määritellä myös toisessa järjestyksessä
\({s_{2}^2}/{s_{1}^2}\), jolloin F-jakauman vapausasteet ovat vastaavasti toisessa järjestyksessä.
Testin ominaisuuksia
- Testi olettaa erotusten normaalisuuden ja riippumattomuuden.
- Ei toimi kovinkaan hyvin ei-normaalien havaintojen varianssin testaamiseen.
6.3 Epäparametrisiä testejä
Edellä kuvatut testit olettavat kaikki havainnoille jonkun tietyn jakaumamuodon, jonka takia niitä kutsutaan yleisnimellä parametriset tai jakaumariippuvaiset testit. Parametrisissä testeissä tämä jakaumaoletus on käytännössä normaalijakauma. Tällaiset tiettyyn jakaumamuotoon perustuvat testit toimivat hyvin, niin kauan kuin taustaoletukset jakaumista pitävät hyvin tai kohtuullisesti paikkansa. Testit voivat toimia tietyin ehdoin kohtuullisesti myös silloin kuin jakaumaoletukset eivät täysin pidä paikkaansa, kunhan otoskoko on suuri. Mikäli otoskoko ei ole suuri tai poikkeama jakaumaoletuksesta on merkittävä, niin parametriset testit eivät toimi enää kovin hyvin - tai ei juuri ollenkaan.
Edellä mainittujen rajoitteiden takia tilastollisia testejä on kehitetty myös tapauksiin, joissa havainnoille ei vaadita mitään jakaumamuotoa, ja näitä kutsutaan yleisesti epäparametrisiksi tai jakaumariippumattomiksi testeiksi. Sen lisäksi, että nämä testit ovat jakaumaoletusten suhteen vaatimattomampia ne toimivat usein myös paremmin pienempien otosten tapauksessa verrattuna parametrisiin testeihin. Osa epäparametrisistä testeistä toimii myös ordinaali- tai jopa nominaaliasteikollisille muuttujille ja ovat siten vaatimattomampia muuttujien luonteen suhteen. Parametristen testien kohdalla on kuitenkin huomattava, että vaikka ne pyrkivätkin vastaamaan parametristen testien kanssa moniin samankaltaisiin makrotason kysymyksiin - esimerkiksi jakaumien samankaltaisuudesta - niin useimmiten täsmällinen kriteeri samankaltaisuudesta on erilainen. Näin ollen parametriset ja epäparametriset testit eivät ole täysin vaihdannaisia toistensa kanssa.
6.3.1 Testi suhteellisen osuuden lukuarvolle (yksi otos)
Suhteellisen osuuden testissä tutkitaan, onko tietyn tapahtuman suhteellinen osuus havaintoaineistossa eli estimoitu onnistumistodennäköisyys linjassa oletetun teorian kanssa.Taustaoletus (yleinen hypoteesi): riippumattomat binääriset 0/1- esimerkiksi kyllä/ei - havainnot \(X_i, i = 1,...,n\) on saatu riippumattomasti \(Bernoulli(p)\) jakaumasta.
Testattava hypoteesi: Testissä tutkitaan aineistoon perustuen, onko onnistumistodennäköisyys tapahtumille suuruudeltaan tietty kiinteä annettu arvo \(p_0\)
- \(H_0 : p = p_0\)
- Kaksisuuntainen \(H_1: p \neq p_0\)
- Yksisuuntainen \(H_1: p > p_0\) tai \(H_1: p < p_0\)
Testisuure on muotoa \[Z= \frac{\hat{p}-p_0}{ \sqrt{\frac{p_0(1-p_0)}{n}}},\] jossa \(\hat{p} = \frac{1}{n}\sum_{i=1}^{n}X_i\) on estimaattori onnistumistodennäköisyydelle. Näin määritellen testisuureelle \(Z\) on voimassa approksimatiivisesti \(Z \sim_a N(0,1).\)
Testin ominaisuuksia
- Testisuureen jakaumaoletus perustuu binomijakauman normaaliapproksimaatioon ja toimii hyvin vain kun \(n\hat{p} \geq 10\) ja \(n(1-\hat{p}) \geq 10\).
6.3.2 Testi suhteellisten osuuksien yhtäsuuruudelle (kaksi otosta)
Suhteellisten osuuksien vertailutestissä tutkitaan, onko tietyn tapahtuman suhteellinen osuus sama kahdessa eri havaintoaineistossa, joiden koot voivat olla erilaiset.
Taustaoletus (yleinen hypoteesi): keskenään riippumattomat havaintosarjat \(X_i, i = 1,...,n_1\) ja \(Y_i, i = 1,...,n_2\) ovat kumpikin Bernoulli-jakautuneet \(X_i\sim Bernoulli(p_1)\) ja \(Y_i\sim Bernoulli(p_2)\) ja sarjojen sisällä havainnot ovat riippumattomia.
Testattava hypoteesi:
- \(H_0 : p_1 = p_2\)
- Yksisuuntainen \(H_1: p_1 \neq p_2\)
- Kaksisuuntainen \(H_1: p_1 > p_2\) tai \(H_1: p_1 < p_2\)
Testisuure on muotoa
\[Z=\frac{\hat{p}_1-\hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1} +\frac{1}{n_2})}},\] jossa \(\hat{p}\) määritellään painotettuna keskiarvona tapahtumatodennäköisyyksien estimaateista \(\hat{p}_1\) ja \(\hat{p}_2\) eli \(\hat{p}=\frac{n_{1}\hat{p}_1+n_{2}\hat{p}_2}{n_1 + n_2}\). Näin määritellen on testisuureelle \(Z\) on approksimatiivisesti voimassa \(Z \sim_a N(0,1).\)
Testin ominaisuuksia
- Havainnot ovat nominaali- eli laatueroasteikollisia.
- Testisuureen jakaumaoletus perustuu binomijakauman normaaliapproksimaatioon: toimii hyvin vain kun \(n\hat{p} \geq 5\) ja \(n(1-\hat{p}) \geq 5\).
6.3.3 Wilcoxonin testi mediaanin lukuarvolle (yksi otos)
Wilcoxonin testi vastaa omalla tavallaan kysymykseen aineiston keskimääräisyydestä tutkimalla havaintoaineiston mediaania, kun vastaavasti parametrinen yhden otoksen t-testi tutki (normaalijakauman) odotusarvoa.
Järjestysluku eli rank(i)Wilcoxonin testi perustuu ajatukseen havaintojen suuruuksien tutkimisesta suhteessa mediaaniin: mikäli mediaani on oikeaa luokkaa, niin noin puolet havainnoista pitäisi olla mediaanikandidaattia suurempia ja puolet pienempiä. Testisuureen rakentamiseen käytetään havaintojen järjestyslukuja eli rankejä (En: rank), jotka määritellään havaintoaineiston suuruusjärjestyksen sijalukuna pienimmästä suurimpaan. Havaintosarjan \(Z_1,\ldots,Z_n\) havainnon \(Z_i\) järjestysnumeroa eli rankia merkitään symbolilla \(R(Z_i)\).
Taustaoletus (yleinen hypoteesi): havainnot \(X_i, i=1,\ldots,n\) on saatu symmetrisestä jakaumasta ja havainnot on vähintään intervalliasteikollisia muuttujia.
Testattava hypoteesi: testissä tutkitaan aineistoon perustuen onko mediaani joku tietty kiinteä annettu arvo \(Me_0\)
- \(H_0: Mediaani(X) = Me_0\)
- Kaksisuuntainen \(H_1: Mediaani(X) \neq Me_0\)
- Yksisuuntainen \(H_1: Mediaani(X) > Me_0\) tai \(H_1: Mediaani(X) < Me_0\)
Testisuure
Määritellään aluksi jokaisen havainnon etäisyys nollahypoteesin mukaisesta mediaanista
\(|D_i| :=|X_i - Me_0|\) sekä suureet \(Z_{i}^{´}\), jotka ovat suuruusjärjestetyt etäisyydet
\(|D_i|^{´}t\). Testisuure on nyt
\[Z =
\frac{W^{+}-E(W^{+})}{D(W^{+})},\] jossa \(W^{+} =
\sum_{D_i>0}R(Z_i)\) on niiden järjestyslukujen summa, joita vastaavat
erotukset \(D_i = X_i - Me_0\) ovat positiivisia. Testisuureessa \(E(W^{+}) =
\frac{1}{4}n(n+1)\) ja kuvaa suureen \(W^+\) teoreettista odotusarvoa
ja \(D(W^{+})=\sqrt{\frac{1}{24}n(n+1)(2n+1)}\) kuvaa keskihajontaa.
Näin määritellen on testisuureelle \(Z\) on approksimatiivisesti
voimassa \(Z \sim_a N(0,1)\) ja testin p-arvot sekä kriittiset pisteet voidaan laskea tästä jakaumasta.
Wilcoxonin testin ominaisuuksia
- Testi toimii hyvin vain riittävän suurissa otoksissa \((n>20)\)
- Testille on olemassa myös aivan vastaava miinus-muoto, jossa tarkastellaan negatiivisia
suureita \(D_i\)
- Wilcoxonin testiä voidaan käyttää myös parivertailuasetelmiin. Tällöin nollahypoteesina on, että \(Me(D) = 0\), jossa suureet \(D_i\) määritellään vastaavina erotuksina kuin parametrisessä parivertailutestissä \(D_i=X_{i1}-X_{i2}\)
6.3.4 Mann-Whitneyn testi jakaumien (mediaanien) samuudelle (kaksi otosta)
Mann-Whitneyn testillä vastataan laveaan kysymykseen kahden satunnaismuuttujan \(X\) ja \(Y\) jakauman samankaltaisuudesta eli kysymykseen onko \(F_X = F_Y\). Testi perustuu yhdistetyn otoksen tarkasteluun, joka on järjestetty suurusjärjestykseen; mikäli toisen otoksen havainnot ovat systemaattisesti suurempia kuin toisen otoksen havainnot - eli toisen otoksen lukuarvot dominoivat toisia - niin havainnot eivät ole sekoittuneet ja tällöin jakaumien päätellään olevan erilaisia.Taustaoletus (yleinen hypoteesi): on havaittu keskenään riippumattomat havaintosarjat \(X_i, i=1,\ldots,n\) ja \(Y_j, j=1,\ldots,m\), jotka ovat muutoin samoin jakautuneita, mutta mediaanit voivat erota. Havainnot ovat vähintään ordinaaliasteikollisia muuttujia.
Testattava hypoteesi:
- \(H_0:\) jakaumat ovat samanlaisia eli \(F_X = F_Y\) (jolloin jakaumien mediaanit ovat samoja)
- Kaksisuuntainen \(H_1\): jakaumat ovat erilaisia eli \(F_X \neq F_Y\) (jolloin jakaumien mediaanit ovat erisuuruisia)
Testisuure \[Z_2= \frac{U_{2} - \frac{1}{2}nm}{\sqrt{\frac{1}{12}nm(n+m+1)}},\] jossa \(U_2 = \sum_{j=1}^{m}\sum_{i=1}^{n}D_{ij}^{(2)}\). Tässä \[D_{ij}^{(2)} = \begin{cases} 1, \text{ jos } \, Y_j < X_i \\ 0, \text{ jos } \, Y_j > X_{i} \end{cases},\]
jossa \(j=1,2,\ldots,m\) ja \(i=1,2,\ldots, n\). Näin määritellen testisuureelle \(Z_2\) on approksimatiivisesti voimassa \(Z_2 \sim_a N(0,1)\) ja p-arvot tai kriittiset pisteet voidaan laskea tästä jakaumasta
Mann-Whitneyn testin ominaisuuksia:
- Toimii hyvin vain riittävän suurissa otoksissa (\(n>10\) ja \(m>10\))
- Otosten allokointi \(X\) ja \(Y\) otokseen on täysin valintakysymys, ja vaikka suureelle \(U_2\) saadaankin toinen lukuarvo toisella otosten nimeämisellä, niin lopputulos testistä on aivan sama
- Mann-Whitneyn testistä esiintyy kirjallisuudessa erilaisia vaihtoehtoisia formulaatioita, jotka kuitenkin kaikki tuottavat samat lopputulokset
Esimerkki 6.3.4.1
Executive-koulutukseen valittiin kahden eri yrityksen työntekijöitä, joiden alkutestien pistemäärät ovat oheisessa taulukossa
\[ \begin{array}{c|c|c|c|c|c|c|ç|c} Yritys\, 1 & 26.9 & 36.5 & 33.5 & 32.6 & & & & \\ \hline Yritys\, 2 & 34.0 & 45.2 & 32.4 & 44.0 & 34.7 & 35.9 & 37.0& 46.0 \end{array} \]
Tutki Mann-Whitneyn testillä onko koulutukseen valittujen työntekijöiden osaamisessa eroa merkitsevyystasolla 0.01.
Ratkaisu
Nollahypoteesi on, että mediaanit ovat samoja.
Merkitään symboleilla \(X_i, i=1,..,4\) yrityksen 1 havaintoja ja \(Y_i, i=1,..,8\) yrityksen 2 havaintoja. Käytetään lisäksi merkintää \(X_{(1)}\) pienimmälle \(X\)-sarjan havainnolle ja \(X_{(2)}\) toiseksi pienimmälle ja niin edelleen ja vastaavasti myös \(Y\)-havainnoille.
Muodostetaan seuraava yhdistetty järjestetty otos
\[ \begin{array}{c|c|c|c|c|c|c|ç|c|c|c|c|c} Havainto & X_{(1)} & Y_{(1)} & X_{(2)} & X_{(3)} & Y_{(2)} & Y_{(3)} & Y_{(4)} & X_{(4)} & Y_{(5)} & Y_{(6)} & Y_{(7)} & Y_{(8)} \\ \hline Arvo & 26.9 & 32.4 & 32.6 & 33.5 & 34.0 & 34.7 & 35.9 & 36.5 & 37.0 & 44.0 & 45.2 & 46.0 \\ \hline Rank& 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & 11 & 12 \end{array} \]
Kun tarkastellaan suuretta \(U_2 = \sum_{j=1}^{m}\sum_{i=1}^{n}D_{ij}^{(2)}\) niin havaitaan, että
- \(X_{(1)}\) on isompi kuin \(Y\)-havainnot 0 kertaa eli \(\sum_{i=1}^{n}D_{ij}^{(2)}=0\)
- \(X_{(2)}\) on isompi kuin \(Y\)-havainnot 1 kertaa eli \(\sum_{i=1}^{n}D_{ij}^{(2)}=1\)
- \(X_{(3)}\) on isompi kuin \(Y\)-havainnot 1 kertaa eli \(\sum_{i=1}^{n}D_{ij}^{(2)}=1\)
- \(X_{(4)}\) on isompi kuin \(Y\)-havainnot 4 kertaa eli \(\sum_{i=1}^{n}D_{ij}^{(2)}=4.\)
Näin ollen \(X\)-havainnot “voittavat” \(Y\)-havainnot yhteensä 6 kertaa eli \(U_2=6\).
Testisuureeksi saadaan näin ollen
\(Z_2= \frac{6 - \frac{1}{2}4\cdot 8}{\sqrt{\frac{1}{12}4\cdot 8(4+8+1)}}=-1.698.\)
Testin kriittinen arvo saadaan R-komennolla ‘qnorm(0.005, mean=0, sd=1)’, josta lukuarvoksi saadaan -2.575829. Nollahypoteesi jää näin ollen voimaan.
P-arvo saadaan R-komennolla 2*pnorm(-1.698, mean=0, sd=1)
, josta saadaan p-arvoksi 0.0895 ja
nollahypoteesi jää näin ollen voimaan myös p-arvotarkastelun perusteella.
6.3.5 \(\chi^2\) -yhteensopivuustesti aka (yleinen) jakaumatesti
Käytännön tilastoaineiston analysoinnissa tehdään usein oletuksia tai (valistuneita) arvauksia aineiston jakaumasta. Näitä jakaumaoletuksia tarvitaan esimerkiksi parametristen testien taustaoletuksiin. Tällaisille jakaumaoletuksille on olemassa erillinen jakaumatesti, joka perustuu suuruusjärjestetyn havaintoaineiston luokitteluun ja testissä tarkastellaan oleellisesti sopivatko havaitut luokkafrekvenssit siihen mitä ne jakaumaoletusten mukaisesti pitäisi olla. Jotta teoreettiset luokkafrekvenssit voidaan laskea, tarvitsee aineistosta usein estimoida oletetun jakauman tarvitsemat parametrit. Huomaa kuitenkin, että jakaumatestissä ei siis testata jakauman parametrin/parametrien arvoja - kuten esimerkiksi t-testissä - vaan ainoastaan valittua jakaumaoletusta, esimerkiksi normaalisuutta. .Taustaoletus (yleinen hypoteesi): havainnot \(X_i\) ovat riippumattomia
Testattava hypoteesi
- \(H_0\): havainnot noudattavat oletettua jakaumaa
- \(H_1\): havainnot eivät noudata oletettua jakaumaa
Testisuure
Määritellään havainnoille \(m\) kappaletta toisensa poissulkevaa luokkaa (vrt.
histogrammin luokat). Testisuure on näin määritellen
\[\chi^2 =\sum_{k=1}^{m}\frac{(O_k - E_k)^2}{E_k},\]
jossa \(O_k\) on havaittu (Observed) frekvenssi ja \(E_k\) on odotettu (Expected)
oletetun jakauman mukainen frekvenssi luokassa \(k\). Näin määritellen testisuureelle on voimassa
approksimatiivisesti \(\chi^2 \sim_a \chi^2 (m-1-p),\) jossa
\(p\) on estimoitujen parametrien lukumäärä, joka tarvitaan määrittämään
oletetun jakauman mukaiset luokkafrekvenssit. Tässä testissä vaihtoehtoiset hypoteesit ovat käytännössä aina yksisuuntaisia.
Jos siis jakaumatestiä tehdään esimerkiksi normaalijakaumalle, on otoksesta ensin estimoitava normaalijakauman kaksi parametriä eli odotusarvo (\(\mu\)) ja varianssi (\(\sigma^2\)), jolloin \(p=2\) ja odotetut havaintolukumäärät luokkaväleissä lasketaan perustuen näihin kahteen parametriin. Jos vastaavasti jakaumatesti tehdään eksponenttijakaumalle, niin otoksesta estimoidaan parametri \(\lambda\), jolloin \(p=1\) ja odotetut havaintolukumäärät luokkaväleissä lasketaan perustuen tähän estimoituun parametriin.
Testin ominaisuuksia
- Toimii riittävän hyvin, jos odotetut luokkafrekvenssit \(E_k > 5\). Tässä kohdassa on siis huomattava, että pienellä havaintoaineistolla luokkien lukumääränkin tulee olla pieni (luokkavälin leveys suuri), jotta testiä on mahdollista käyttää.
- Testiä yhteensopivuudelle voidaan käyttää erityisesti testaamaan tyypillisen \(t\)-testin yleisen hypoteesin normaalisuusoletuksen voimassaoloa. Normaalisuudelle on myös olemassa erityisiä lisätestejä normaalisuudelle, mutta eivät kuulu tämän kurssin sisältöön
Esimerkki 6.3.5.1
Erään
kansainvälisen logistiikkayrityksen johto alkoi epäilemään erään
lentoaseman logistiikkaketjun tuotantoa ja erityisesti aiheuttavatko
työntekijät tahallaan tai välillisesti ylimääräisiä ketjun
toimintahäiriöitä viikonlopuille ns. “viikonloppuefektin” takia.
Oheisessa taulukossa on vuoden ajalta raportoidut eri viikonpäiville
osuneet vikatilanteet ko. lentoaseman logistiikkayksiköissä.
\[ \begin{array}{c|c|c|c|c|c|c} Ma & Ti & Ke & To & Pe & La & Su & Yht\\ \hline 64 & 57 & 53 & 50 & 48 & 62 & 58 & 392 \end{array} \]
Tutki tilastollisesti viikonloppuefektin ilmenemistä. Käytä viiden prosentin merkitsevyystasoa.
Ratkaisu
Käytetään jakaumatestiä vastaamaan kysymykseen “kuinka jakauma sopii ajatukseen tasaisesta
virhetahdista eli kuinka hyvin tasajakauma sopii aineistoon?”
Tasajakauman mukaisesti virheiden jakauma olisi
\[ \begin{array}{c|c|c|c|c|c|c} Ma & Ti & Ke & To & Pe & La & Su & Yht\\ \hline 56 & 56 & 56 & 56 & 56 & 56 & 56 & 392 \end{array} \]
Testisuure on nyt \(\chi^2 = \sum_{k=1}^{m}\frac{(O_k - E_k)^2}{E_k} = \frac{(64 - 56)^2}{56} + \ldots + \frac{(58-56)^2}{56} = 3.821429\).
Testin vapausasteet = \(m-1-p = 7-1-0 = 6\) sillä tässä ei ole
yhtään estimoitua parametria. Kriittinen arvo saadaan R-komennollaqchisq(0.95, df=6)
,
josta saadaan 12.592. Koska testisuure on huomattavasti pienempi kuin
kriittinen arvo jätetään nollahypoteesi voimaan.
Testin p-arvo saadaan R-komennolla 1-pchisq(3.821429, df=6)
, josta saadaan 0.700827.
Nollahypoteesi tasaisesta virhetahdista jätetään voimaan myös p-arvotarkastelun kautta.
6.3.6 \(\chi^2\) homogeenisyystesti
Varsin usein otoskohteet voidaan ryhmitellä jonkun taustamuuttujan suhteen ja tällöin tyypillinen kysymys on ryhmittelyn homogeenisyys eli samoin jakautuneisuus taustamuuttujan tai taustamuuttujien suhteen. Tähän kysymykseen vastaa homogeenisyystesti.
Taustaoletus (yleinen hypoteesi): ryhmäkohtaiset satunnaisotokset poimittu toisistaan riippumattomasti ja ryhmiä on \(r\) kappaletta
Testattava hypoteesi
- \(H_0\): havainnot jakautuvat jokaisessa ryhmässä samalla tavalla
- \(H_1\): havainnot eivät jakaudu jokaisessa ryhmässä samalla tavalla
Testisuure Määritellään aluksi jokaiselle ryhmälle \(c\) kappaletta toisensa poissulkevaa luokkaa (vrt. 2-ulotteinen histogrammi). Testisuure \(\chi^2\) muodostetaan \(r*c\) -kokoiseen frekvenssitaulukkoon perustuen \[\chi^2 = \sum_{i=1}^{r}\sum_{j=1}^{c}\frac{(O_{ij} - E_{ij})^2}{E_{ij}},\] jossa \(O_{ij}\) on havaittu (Observed) frekvenssi solussa \((i,j)\) ja odotetut (Expected) frekvenssit \((E_{ij})\) saadaan laskemalla osuudet rivi- ja sarakesummiin perustuen: \[E_{ij}=\frac{ (\sum_i O_{ij}) \cdot (\sum_j O_{ij})}{\sum_i \sum_j O_{ij}}\] eli laskemalla rivi- ja sarakesummien tulo jaettuna kokonaissummalla. Näin määritellen testisuureelle on voimassa approksimatiivisesti \(\chi^2 \sim_a \chi^2 ((r-1)(c-1)).\) Tässä testissä vaihtoehtoiset hypoteesit ovat käytännössä aina yksisuuntaisia.
Testin ominaisuuksia
- Toimii riittävän hyvin, jos odotetut luokkafrekvenssit riittävän suuria \(E_{ij} > 1\). Käytännön tarkasteluissa tämä tarkoittaa sitä, että luokkien lukumäärä \(c\) pitää valita sellaiseksi, että ko. ehto täyttyy.
Esimerkki 6.3.6.1
Tutkimukseen oli riippumattomasti kerätty miesten ja naisten näkemyksiä työn alla
olevasta MBA-tutkinnosta, ja tutkimuksessa haluttiin tutkia onko
sukupuolella vaikutusta seuraaviin päämääriin.
- Tutkintopaperin saaminen: tärkeä (merk: TT) ja ei-tärkeä (merk: TE)
- Opiskeluprosessi: tärkeä (merk: OT) ja ei-tärkeä (merk: OE)
Kyselytutkimuksesta seuraava aineisto:
\[ \begin{array}{c|c|c|c|c} & TT & TE & OT & OE \\\hline Naiset & 141 & 73 & 207 & 261 \\ \hline Miehet & 316 & 74 & 56 & 130 \end{array} \]
Tutki testin avulla suhtautuvatko miehet ja naiset eri tavoin päämääriin? Käytä merkitsevyystasoa \(\alpha=0.05\).
Ratkaisu
Käytetään homogeenisyystestiä: ts. onko miesten ja naisten jakaumat
samanlaisia. Nyt testin rakenteen mukaan
- Ryhmät = {naiset, miehet} eli \(r=2\)
- Luokat = {TT, TE, OT, OE} eli \(c=4\)
Lasketaan aluksi alkuperäisen aineiston rivi- ja sarakesummat (eli marginaalijakaumat)
\[ \begin{array}{c|c|c|c|c|c} & TT & TE & OT & OE & Summa\\\hline Naiset & 141 & 73 & 207 & 261 & 682 \\ \hline Miehet & 316 & 74 & 56 & 130 & 576 \\ \hline Summa & 457 & 147 & 263 & 391 & 1258 \end{array} \]
Nollahypoteesin mukaiset odotetut frekvenssit saadaan laskettua rivi- ja sarakesummien avulla seuraavasti
\[ \begin{array}{c|c|c|c|c} & TT & TE & OT & OE \\ \hline \hline \text{Naiset} &\frac{457*682}{1258} & \frac{147*682}{1258} & \frac{263*682}{1258} & \frac{391*682}{1258}\\ \hline \text{Miehet} & \frac{457*576}{1258} & \frac{147*576}{1258} & \frac{263*576}{1258} & \frac{391*576}{1258} \end{array} \] Odotettujen frekvenssien taulukko on siis \[ \begin{array}{c|c|c|c|c} & TT & TE & OT & OE \\ \hline \text{Naiset} & 247.75 & 79.69 & 142.58 & 211.97 \\ \hline \text{Miehet} & 209.25 & 67.31 & 120.42 & 179.02 \end{array} \]
Testisuureeksi saadaan
nyt \(\chi^2 = \frac{(141-247.75)^2}{247.75} +
\frac{(73-79.69)^2}{79.69} + \ldots + \frac{(130-179.02)^2}{179.02}
= 190.0139.\)
Testin vapausaste on \((r-1)*(c-1)=1*3=3\). Kriittinen arvo saadaan
R-komennolla
qchisq(0.95, df=3)
, josta saadaan lukuarvoksi 7.8147. Koska
testisuure on huomattavasti suurempi kuin kriittinen arvo, niin nollahypoteesi hylätään ja
vaihtoehtoinen hypoteesi astuu voimaan.
Testin p-arvo saadaan R-komennolla 1-pchisq(190.0139, df=3)
josta saadaan lukuarvoksi 0 eli nollahypoteesi hylätään.
6.3.7 \(\chi^2\) riippumattomuustesti
Tyypillinen käytännön kysymys on kahden tekijän riippumattomuus eli voidaanko kahta tekijää tarkastella erillisinä.
Taustaoletus (yleinen hypoteesi): riippumaton satunnaisotos ja havaintoyksiköt luokiteltu kahden tekijän A ja B suhteen.
Testattava hypoteesi
- \(H_0\): Tekijät A ja B ovat riippumattomia
- \(H_1\): Tekijät A ja B eivät ole riippumattomia.
Testisuure
Luokitellaan aluksi havainnot
A:n suhteen (esim. ikäryhmät) toisensa poissulkeviin luokkiin, joita on
\(r\) kappaletta ja B:n suhteen (esim. asuinalueet) toisensa
poissulkeviin luokkiin, joita on \(c\) kappaletta. Testisuure
\(\chi^2\) perustuu \(r*c\) -kokoiseen frekvenssitaulukkoon:
\[\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c}\frac{(O_{ij} -
E_{ij})^2}{E_{ij}},\] jossa \(O_{ij}\) on vastaava havaittu ja
\((E_{ij})\) on odotettu frekvenssi solussa \((i,j)\) kuin aiemmin. Näin
määritellen testisuureelle \(\chi^2\) on voimassa approksimatiivisesti
\(\chi^2 \sim_a \chi^2 ((r-1)(c-1))\). Tässä testissä vaihtoehtoiset hypoteesit ovat käytännössä aina yksisuuntaisia.
Testin ominaisuuksia:
- Toimii riittävän hyvin, jos odotetut luokkafrekvenssit riittävän suuria \(E_{ij} > 1\)
Esimerkki 6.3.7.1
Tutkimukseen
oli kerätty kansanedustajaehdokkaiden mielipiteitä erääseen kysymykseen
kolmen puolueen ehdokkailta ja saatiin seuraava aineisto:
\[ \begin{array}{c|c|c|c} & Puolesta & Neutraali & Vastaan \\ \hline KOK & 67 & 14 & 39 & \\ \hline SDP & 58 & 13 & 85 & \\ \hline PS & 62 & 7 & 63 \end{array} \]
Ovatko vastaukset kysymykseen riippumattomia puolueesta? Käytä merkitsevyystasoa \(\alpha=0.01\).
Ratkaisu
Käytetään riippumattomuustestiä (huom kysymys “onko vastaus riippumaton puoluekannasta?”). Nyt testin rakenteen mukaan
- Ryhmät = {KOK, SDP, PS} eli \(r=3\)
- Luokat = {Puolesta, Neutraali, Vastaan} eli \(c=3\)
Nollahypoteesin mukaiset odotetut frekvenssit saadaan laskettua rivi- ja sarakesummien avulla seuraavasti
\[ \begin{array}{c|c|c|c} & Puolesta & Neutraali & Vastaan \\ \hline \hline KOK &\frac{187*120}{408} & \frac{34*120}{408} & \frac{187*120}{408} \\ \hline SDP & \frac{187*156}{408} & \frac{34*156}{408} & \frac{187*156}{408} & \\ \hline PS & \frac{187*132}{408} & \frac{34*132}{408} & \frac{187*132}{408} & \end{array} \]
Odotettujen frekvenssien taulukko on siis
\[ \begin{array}{c|c|c|c} & Puolesta & Neutraali & Vastaan \\ \hline \hline KOK & 55 & 10 & 55 \\ \hline SDP & 71.5 & 13 & 71.5 & \\ \hline PS & 60.5 & 11 & 60 & \end{array} \]
Käyttäen havaittuja ja odotettuja frekvenssejä testisuureeksi saadaan nyt \(\chi^2 = \frac{(67-55)^2}{55} + \frac{(14-10)^2}{10} + \ldots + \frac{63-60.5)^2}{60.5} = 15.56567\)
Testin vapausaste on \((r-1)(c-1)=2*2=4\). Kriittinen
arvo saadaan R-komennolla
qchisq(0.99, df=4)
, josta saadaan lukuarvoksi 13.27670414. Koska
testisuure on suurempi kuin kriittinen arvo, nollahypoteesi hylätään ja
vaihtoehtoinen hypoteesi astuu voimaan. Testin p-arvo saadaan R-komennolla
1-pchisq(15.56567,df=4)
, josta saadaan lukuarvoksi 0.0037.
6.3.8 Lisätietoa: Homogeenisyys vs riippumattomuustesti
Vaikka numeerinen proseduuri homogeenisyystestillä ja riippumattomuustestillä ovatkin samanlaiset, niin testausasetelmat poikkeavat näissä kuitenkin oleellisesti:
Homogeenisyystesti | Riippumattomuustesti |
---|---|
Tarkastellaan joukon jakautumista eri ryhmiin, kun outputtien luokittelu on tehty yhden tekijän suhteen | Tarkastellaan kahden tekijän (A ja B) riippuvuutta, kun havainnot luokiteltu ristiin |
Havaintoaineisto koostuu riippumattomista ryhmäkohtaisista otoksista | Havaintoaineisto koostuu yhdestä satunnaisotoksesta |
Ryhmäkohtaiset otoskoot \(n_i\) ja kokonaislukumäärä \(n\) ovat kiinteitä. Sattuma määrä miten havainnot jakautuvat luokkiin ryhmien sisällä | Vain havaintojen kokonaislukumäärä \(n\) on kiinteä. Sattuma määrää miten havainnot jakautuvat luokkiin |