8 Uskottavuuspäättelyä ja sen sovelluksia

8.1 Johdatusta kohti uskottavuuspäättelyä

Aiemmin tässä materiaalissa on tutustuttu moniin uusiin tiheys- tai pistetodennäköisyysfunktioihin, joiden lisäksi on sivuttu pohjatietokursseilla läpikäytyjä jakaumafunktioita. Näitä funktiota on käytetty yksinomaan arvioimaan todennäköisyyksiä esimerkiksi saada joku satunnaismuuttujan arvo - vaikkapa testisuureen arvo hypoteesintestauksessa. Tällöin valittua jakaumafunktiota \(f\) on tarkasteltu satunnaismuuttujan \(X\) mahdollisten arvojen \(x\) funktiona olettaen, että funktion parametrit \(\theta\) ovat kiinnitettyjä ja tunnettuja. Matemaattinen merkintä on tällöin \(f(x|\theta)\), jossa \(\theta\) viittaa geneerisesti valitun jakauman kiinteisiin parametreihin. Parametri \(\theta\) voi tässä siis olla yksiulotteinen parametri (esimerkiksi eksponenttijakaumassa) tai moniulotteinen parametri (esimerkiksi multinormaalijakauman kovarianssimatriisi ja odotusarvovektori). Uskottavuuspäättelyssä asetelma käännetään päälaelleen: tässä satunnaismuuttujan \(x\) - mahdollisesti havaitut - arvot oletetaan kiinteiksi, mutta parametrit oletetaan tuntemattomiksi kiinnostuksen kohteena oleviksi suureiksi. Matemaattinen merkintä tälle on \(f(\theta|x)\), jossa siis muuttujana on jakauman parametri \(\theta\).
Uskottavuuspäättelyn kantava ajatus onkin tarkastella käytetyn tiheys- tai pistetodennäköisyysfunktion parametrejä, kun käytössä on aineisto \(x_1,...,x_n\). Tyypillinen käytännön ongelma on selvittää parametrin arvot tai arvoalue, jo(t)ka parhaiten selittää havaittua aineistoa.

Esimerkki 8.1.1 (johdatteleva esimerkki)
Oletetaan, että käytössä on havaintoaineisto odotusajoista, joiden oletetaan olevan eksponentiaalisesti jakautuneita \(X_i\sim Exp(\lambda)\). Uskottavuuspäättelyssä tavoitteena on hakea sellainen eksponenttijakauman parametriarvo tai arvoalue \(\lambda\), joka parhaiten selittää havaittua kiinteää havaintoaineistoa \(x_1,...,x_n\).

8.1.1 Uskottavuuspäättelyn asema laajemmin

Vaikka tässä materiaalissa keskitytään uskottavuuspäättelyn kohdalla etsimään optimaalisia parametrejä yksinkertaisissa tilanteissa, niin uskottavuuspäättelyllä on tilastotieteessä huomattavasti laajempi asema ja rooli. Uskottavuuspäättelylle on kehitetty valtavasti teoriaa, käytäntöjä ja sovelluksia, ja eräässä mielessä ns. Bayes-päättelynkin tai (Bayesläisen tilastotieteen)[https://fi.wikipedia.org/wiki/Bayesil%C3%A4inen_tilastotiede] voidaan voidaan ajatella kuuluvan uskottavuuspäättelyn kehikkoon. Uskottavuuspäättelyn (ml. Bayes-mallit) etuna on mahdollisuus rakentaa hyvinkin monimutkaisia tilastollisia selitysmalleja ja oppia havaintoihin perustuen parametrejä.

8.2 Uskottavuusfunktio ja log-uskottavuusfunktio

Uskottavuuspäättelyn keskiössä on ns. uskottavuusfunktio, joka rakentuu pohjalla olevan piste- tai tiheysfunktion \(f\) päälle siten, että uskottavuusfunktio toimii mittarina sille kuinka hyvin tietty parametriarvo sopii havaittuun aineistoon \(x=(x_1,...,x_n)\). Uskottavuusfunktiolle käytetään tyypillisesti merkintää \(L(\theta|x)\).

Uskottavuusfunktio voidaan riippumattomien havaintojen tilanteessa kirjoittaa yksittäisten havaintojen uskottavuuksien \(f(\theta|x_i)\) tulona. \[L(\theta|X)=\prod_{i=1}^nf(\theta|x_i).\]

Mikäli havainnot eivät ole riippumattomia, niin tämä pitää ottaa huomioon uskottavuusfunktiossa. Tässä materiaalissa keskitytään kuitenkin yksinkertaiseen tilanteeseen, jossa havainnot ovat riippumattomia.

Esimerkki 8.2.1 (edellisen esimerkin jatkoa/eksponenttiuskottavuus)
Riippumattomille eksponentiaalisesti jakautuneille havainnoille \(X=(x_1,...,x_n)\) uskottavuusfunktio on \(L(\lambda|X)=\prod_{i=1}^nf(\lambda|x_i)=\prod_{i=1}^n\lambda e^{-\lambda x_i}\).

Vaikka ylläkuvatussa tilanteessa uskottavuusfunktiolla \(L(\theta|X)\) onkin periaatteessa suora todennäköisyystulkinta funktion \(f\) kautta, niin uskottavuusfunktiota tarkastellaan pääosin yksinomaan matemaattisena funktiona ilman todennäköisyystulkintaa ja todennäköisyysjakaumaan liittyviä matemaattisia reunaehtoja. Uskottavuusfunktion arvoja käytetään parametrin ja aineiston keskinäiseen vertailuun eri parametrin arvoilla - uskottavuusfunktion absoluuttinen arvo yksittäisessä kohdassa ei useinkaan ole kiinnostava suure. Tämän takia uskottavuusfunktiosta voidaan jättää pois vakiotermit, jotka eivät sisällä tarkasteltavaa muuttujaa \(\theta\). Tällöin voidaan käyttää merkintää \(L(\theta|X)\propto f'(\theta)\), jossa merkintä \(f'(\theta)\) viittaa funktiomuotoon, josta on poistettu termit, jotka eivät sisällä parametriä \(\theta\).

Esimerkki 8.2.2 (binomiuskottavuus)
Oletetaan, että käytössä on riippumattomia havaintoja onnistumisten lukumääristä \(X=(x_1, x_2, ..,x_n)\), joille oletetaan\(X \sim Bin(N,p)\), jossa \(N\) on annettu kiinteä arvo. Uskottavuusfunktio on nyt \(L(p|X)=\Pi_{i=1}^n {N\choose x_i}p^{x_i}(1-p)^{N-x_i}\). Kun uskottavuutta tarkastellaan ainoastaan parametrin \(p\) suhteen, niin tällöin riittää tarkastella vain funktiota \(\Pi_{i=1}^n p^{x_i}(1-p)^{N-x_i}\) sillä termi \({N\choose x_i}\) ei sisällä muuttujaa \(p\). Näin ollen \(L(p|X)\propto \Pi_{i=1}^n p^{x_i}(1-p)^{N-x_i}\).

Uskottavuuspäättelyn kohdalla tulee huomata myös, että uskottavuusfunktio on kiinnostavan parametrin \(\theta\) suhteen usein jatkuva funktio - riippumatta onko taustalla oleva satunnaismuuttuja diskreetti vai jatkuva. Tälle on tosin joitakin poikkeuksia. Jatkuva-arvoisille parametreille voi toki olla erilaisia rajoitteita: esimerkiksi normaalijakauman parametrille on rajoite \(\sigma^2>0\) ja binomijakauman onnistumistodennäköisyydelle \(0\leq p \leq 1\).

8.2.1 Log-uskottavuusfunktio

Uskottavuuspäättelyssä on usein tavoitteena hakea parhaiten selittäviä parametrin arvoja. Käytännön syistä näitä parametrejä on monesti huomattavasti helpompi selvittää käyttäen uskottavuusfunktion logaritmoitua muotoa eli log-uskottavuutta, jolle käytetään merkintää \(l(\theta|x)\).

Log-uskottavuus voidaan riippumattomien havaintojen tapauksessa kirjoittaa logaritmin laskusääntöjä soveltaen muotoon \[l(\theta|x)=log\left( L(\theta|X)\right)=\left(\prod_{i=1}^nf(\theta|x_i)\right)=\sum_{i=1}^nlog(f(\theta|x_i)).\]

Koska logaritmifunktio on monotoninen funktio, niin mm. alkuperäisen funktion maksimikohta on sama kuin logaritmoidun funktion maksimikohta ja näin ollen teorian nojalla voidaan käyttää aivan hyvin log-uskottavuusfunktiota (lyhyemmin log-uskottavuutta) alkuperäisen uskottavuusfunktion sijasta. Log-uskottavuusfunktion käyttöön varsinaisen uskottavuusfunktion sijasta on myös muita painavia teoreettis-käytännöllisiä syitä, mutta näihin ei tässä esityksessä mennä syvemmin. Vastaavalla tavalla uskottavuusfunktion ja log-uskottavuusfunktion lausekkeesta voidaan jättää pois termit, jotka eivät sisällä tarkasteltavaa parametriä sillä vakiot eivät vaikuta optimikohtaan.

Esimerkki 8.2.1.1 (jatkoa aiemmalle eksponenttiuskottavuudelle)
Riippumattomille eksponentiaalisesti jakautuneille havainnoille \(X=(x_1,...,x_n)\) log-uskottavuus on \(l(\lambda|X)=log(\prod_{i=1}^n\lambda e^{-\lambda x_i})=\sum_{i=1}^n log(\lambda)-\lambda x_i=n\, log(\lambda)-\lambda\sum_{i=1}^nx_i\).

Esimerkki 8.2.1.2 (jatkoa aiemmalle binomiuskottavuudelle)
Logaritmoimalla aiemmin saatu uskottavuusfunktio \(L(p|X)\propto \Pi_{i=1}^n p^{x_i}(1-p)^{N-x_i}\) ja soveltamalla logaritmin laskusääntöjä saadaan \(l(p|X)\propto \Sigma_{i=1}^n x_i ln(p)+(N-x_i)ln(1-p)\).

8.2.2 Suurimman uskottavuuden menetelmä (En: maximum likelihood - ML)

Suurimman uskottavuuden menetelmässä haetaan yhtä tiettyä parametrin arvoa, jolla uskottavuus saa suurimman arvonsa. Tälle suurimman uskottavuuden antavalle parametriarvolle käytetään yleisesti symbolia \(\hat{\theta}\). Aiemman perustelun nojalla log-uskottavuuden maksimi saadaan samassa kohdassa kuin uskottavuusfunktion maksimi eli \[ \hat{\theta}= argmax \ l(\theta|X) = argmax \ L(\theta|X),\] jossa merkintä \(argmax\) tarkoittaa funktion suurimman arvon arvon antavaa muuttujan arvoa.

Käytännössä suurimman uskottavuuden parametriarvojen löytämiselle on kaksi päästrategiaa

Analyyttinen (kynä&paperi) tekniikka, jossa tarvitaan usein differentiaalilaskentaa: optimikohta löydetään derivaatan tai differentiaalin nollakohdassa (tai reunoilla)
Numeerinen keino. Tämä vaatii käytännössä aina jotain koodaamista tai ohjelmointia sekä jonkun numeerisen työkalun. Numeerisissa ratkaisuissa on joskus huolellisesti selvitettävä, että antaako jokin ratkaisin globaalin maksimin parametrille vai jonkun lokaalin maksimin.

Esimerkki 8.2.2.1 (jatkoa eksponenttiuskottavuudelle)
Suurimman uskottavuuden estimaatti parametrille \(\lambda\) saadaan ratkaisemalla derivaatan nollakohta parametrin \(\lambda\) suhteen \(\frac{d \left(n\, log(\lambda)-\lambda\sum_{i=1}^nx_i\right)}{d \lambda}=\frac{n}{\lambda}-\sum_{i=1}^nx_i=0\), josta saadaan ratkaisu \(\hat{\lambda}=\frac{n}{\sum_{i=1}^nx_i}=\frac{1}{\bar{x}}\).

Esimerkki 8.2.2.2 (jatkoa binomiuskottavuudelle)
Suurimman uskottavuuden estimaatti parametrille \(p\) saadaan ratkaisemalla derivaatan nollakohta parametrin \(p\) suhteen \(\frac{\delta \left( \Sigma_{i=1}^n x_i ln(\pi)+(N-x_i)ln((1-\pi)) \right)}{\delta p}=0\). Tästä saadaan muutaman välivaiheen jälkeen ratkaisuksi \(\hat{p}=\Sigma x_i/N\) (tarkista itse). Tämä on suurimman uskottavuuden estimaatti binomimallin parametrille \(p\) ko. aineistolle. Huomaa seuraavat asiat tästä esimerkistä:

Tämä oli esimerkki diskreetistä satunnaismuuttujasta, jossa kuitenkin parametri \(p\) on jatkuva (välillä \(0 \leq p \leq 1\)).
Uskottavuuspäättelyä olisi vastaavasti voinut soveltaa myös parametriin \(N\). Tällöin parametrin \(N\) arvo-avaruus ei kuitenkaan ole jatkuva - toisin kuin tyypilliset muut parametrit, esimerkiksi yllä \(p\).

8.3 Logistinen regressio

Aikaisemmin tässä materiaalissa ja pohjatietokursseilla opiskellut regressiomallit - esimerkiksi yhden tai useamman selittäjän lineaarinen regressiomalli soveltuvat kaikki tilanteisiin, jossa selitettävä muuttuja \(y\) voi saada arvoja jatkuvalta väliltä, joka usein on rajoittamaton tai muuten laaja. Jos sen sijaan selitettävä muuttuja \(y\) on binäärinen (esim 0 tai 1) tai kategorinen (esim. 0, 1, 2, 3, 4,…), niin em. regressiomallit eivät ole enää käyttökelpoisia kehikkoja selittämään vastemuuttujaa \(y\), koska nämä eivät pysty ottamaan huomioon tällaista huomattavaa rajoitetta vastemuuttujan mahdollisista arvoista.

8.3.1 Taustaa logistiselle regressiolle

Todennäköisyyden \(p\) ns. vedonlyöntisuhde (En: Odds) määritellään kaavalla \[Odds(p)=\frac{p}{1-p}.\] Tämä vedonlyöntisuhde kertoo kuinka moninkertainen tapahtumatodennäköisyys \(p\) on verrattuna komplementin todennäköisyyteen \(1-p\). Jos tähän osamäärään kohdistetaan logaritmointi kutsutaan saatua funktiota yleisesti logit-funktioksi, joka määritellään \[logit(p)=log \left( \frac{p}{1-p} \right).\] Edellä logaritmin kantaluvulla ei yleisesti ottaen ole merkitystä, mutta käytännön laskuissa tähän valitaan usein yksinkertaisuuden vuoksi \(e\)-kantainen logaritmi. Oletetaan lisäksi, että edellä saatu logit-funktio seuraa jotain valittua funktiomuotoa \(g(x)\), jossa \(x\) on selittävä muuttuja, joka voi olla myös moniulotteinen. Nyt siis \[ln \left( \frac{p(x)}{1-p(x)} \right)=g(x),\] jossa on kirjoitettu eksplisiittisesti \(p=p(x)\), sillä todennäköisyys \(p\) riippuu tässä mallissa funktion \(g\) kautta \(x\):stä. Tästä yhtälöstä saadaan edelleen ratkaisu suureelle \(p(x)\): \[p(x)=\frac{e^{g(x)}}{1+e^{g(x)}}.\]
Tämä on logistisen regression malli tapahtumatodennäköisyydelle \(p\) yleisessä muodossa. Riippumatta funktiosta \(g(x)\) on funktio \(p(x)\) on nyt selvästi välillä \([0,1]\). Tämä on linjassa sen seikan kanssa, että todennäköisyyden tulee olla aina tällä välillä.

Triviaalivalinnalla \(g(x)=x\) saatava funktio \(p(x)=\frac{e^x}{(1+e^x)}\) on yksi muoto logistisesta funktiosta, joka on edelleen yksi erikoistapaus laajemmasta Sigmoid-funktioiden perheestä, joiden kuvaajassa näkyy S-muotoinen hahmo.

8.3.2 Logistinen malli tapahtumatodennäköisyyksille \(p\)

Lineaarisessa logistisessa mallissa tapahtuman todennäköisyyttä \(p(x)\) selitetään em. mallilla siten, että funktiolle \(g\) oletetaan lineaarinen muoto.

Yhden selittäjän lineaarisessa logistisessa mallissa \(g(x)= \beta_0 +\beta_1 x,\) jolloin \[p(x)=\frac{e^{\beta_0+\beta_1 x}}{1+e^{\beta_0+\beta_1 x}}.\]

Erikoistapauksena tästä on yksinkertainen malli \(g(x)=x\), jolloin \(p(x)=\frac{e^x}{(1+e^x)}\).

Monen selittäjän lineaarisessa logistisessa mallissa kovariaattina on vektori \(x_1,...,x_k\) ja \(g(x)=\beta_0+\sum_{j=1}^k\beta_jx_j,\) jolloin \[p(x)=\frac{e^{\beta_0+\sum_{j=1}^k\beta_jx_j}}{1+e^{\beta_0+\sum_{j=1}^k\beta_jx_j}}.\]

Kummassakin tapauksessa parametri \(\beta_0\) on samanlaisessa asemassa kuin tavallisessa lineaarisessa regressiossa: \(\beta_0\) kertoo \(p\):stä, kun selittävä(t) muuttuja(t) saa arvon nolla. Vastaavasti parametri \(\beta_j\) kertoo \(x_j\):n muutoksen vaikutuksesta tapahtumistodennäköisyyteen \(p\). Johtuen logistisen mallin muodosta \(x\):n efekti eli marginaalimuutos todennäköisyyteen \(p\) ei ole vakio vaan riippuu \(x\):n arvosta. Karkeasti voidaan kuitenkin sanoa seuraavaa

kun \(\beta_j\) < 0, niin tapahtumatodennäköisyys \(p\) pienenee \(x_j\):n kasvaessa
kun \(\beta_j\) > 0, niin tapahtumatodennäköisyys \(p\) kasvaa \(x_j\):n kasvaessa

8.3.3 Logistisen regression malli

Logistisessa regressiossa selitettävät havainnot \(y\) ovat tyypillisesti binääristen tapahtumien onnistumislukumääriä, joille käytetään binomimallia ja jonka tapahtumatodennäköisyyksille \(p\) oletetaan kovariaateista \(x\) riippuva lineaarinen logistinen malli. Oletetaan, että käytössä on riippumattomia tapahtumalukumääriä \(y_i\), \(i=1,...,n\) ja näitä vastaavat teoreettiset maksimilukumäärät \(N_i\) sekä yksiulotteiset kovariaatit \(x_i\).

Log-uskottavuus binäärisille havainnoille lineaarisella logistisella mallilla \(g(x)=\beta_0+\beta_1x\) riippumattomien havaintojen tapauksessa on verrannollinen suureeseen

\[\sum_{i=1}^{n}y_i ln \left(\frac{e^{\beta_0+\beta_1x_i}}{1+e^{\beta_0+\beta_1x_i}}\right) + (N_i-y_i)ln \left(1-\frac{e^{\beta_0+\beta_1x_i}}{1+e^{\beta_0+\beta_1x_i}}\right)\]

Mikäli kovariaattina on havainnot \(k\)-ulotteisesta vektorista ja \(g(x)=\beta_0+\sum_{j=1}^k\beta_jx_j\) on log-uskottavuusfunktio verrannollinen suureeseen

\[\sum_{i=1}^{n}y_i ln \left(\frac{e^{\beta_0+\sum_{j=1}^k\beta_jx_{ij}}}{1+e^{\beta_0+\sum_{j=1}^k\beta_jx_{ij}}}\right) + (N_i-y_i)ln \left(1-\frac{e^{\beta_0+\sum_{j=1}^k\beta_jx_{ij}}}{1+e^{\beta_0+\sum_{j=1}^k\beta_jx_{ij}}}\right).\]

Nämä kaksi asetelmaa on hyvin paljon käytettyjä malleja erilaisiin tapahtumalukumäärien mallintamiseen ja näillä on suuri määrä sovelluksia moniin eri tilanteisiin.

Huomautuksena logistisesta regressiosta: useimmille tämä ylläkuvattu asetelma perustuen binomihavaintoihin ja lineaariseen malliin \(g\):lle on synonyymi logistiselle regressiolle. Kuitenkin logistisella regressiolla voidaan binomihavaintojen ohella selittää myös multinomihavaintoja ja malli \(g\):lle voi olla myös epälineaarinen, esimerkiksi muotoa \(g(x)=\beta_0+\beta_1x+\beta_2x^2\). Nämä muut asetelmat on kuitenkin yleisesti ottaen vähemmän käytettyjä.

Kaikissa tapauksissa uskottavuuspäättelyn lopullisena tavoitteena on selvittää funktioon \(g\) sisäänkirjoitettujen parametrien \(\beta_0, \beta_1, ...\) optimaaliset arvot annettuun \((x,y)\)-aineistoon perustuen.

Esimerkki 8.3.3.1
Oheisessa taulukossa on erään aineen annostukset sekä päätetapahtumien lukumäärät

\[ \begin{array}{|c|c|c|c|c|c|c|}\hline annos \, (mg) &0&1&5&15&50&100 \\\hline kohteita \, (lkm) &18&22&22&21&25&28 \\\hline päätetapahtumia &0&2&1&4&20&28 \\ kohteissa &&&&&& \\\hline \end{array} \]

Selvitä:

Kuinka suuri vaikutus annoksella on päätetapahtumaan?
Mikä on päätetapahtuman todennäköisyys annoksella 40 mg?
Mikä on päätetapahtuman todennäköisyys ilman annosta?

Ratkaisu

Määritetään aluksi havaintojen log-likelihoodit. Aiemman perusteella yhden havainnon log-uskottavuus on nyt verrannollinen suureeseen \(y_{i}ln(p_i) + (N_i-y_i)ln(1-p_i)\), jossa suureet \(p(x)=\frac{e^{\beta_0+\beta_1 x}}{1+e^{\beta_0+\beta_1 x}}\). Kaikkien havaintojen uskottavuutta käyttäen saadaan numeerisella optimoinnilla suurimman uskottavuuden ratkaisu \(\hat{\beta}_0 = -3.0360\) ja \(\hat{\beta}_1 = 0.0901,\) jolloin malli tapahtumistodennäköisyyksille on siis \(\hat{p}(x)= \frac{e^{-3.0360+0.0901x}}{1+e^{-3.0360+0.0901x}}\). Tästä voi määrittää edelleen ns. marginaalivaikutuksen laskemalla funktion \(p(x)\) derivaatan \(x\):n suhteen (itsenäinen harjoitus).
Ennuste arvolle \(x = 40\) on nyt \(\hat{p}(40) = \frac{e^{-3.0360+0.0901\cdot40}}{1+e^{-3.0360+0.0901\cdot40}}= 0.638\).
Kun \(x = 0\), niin \(\hat{p}(0) = \frac{e^{-3.0360+0.0901\cdot0}}{1+e^{-3.0360+0.0901\cdot0}}= 0.046.\)

Esimerkki 8.3.3.2
Eräässä amerikkalaisessa yliopistossa tutkittiin senioriopiskelijoiden päihteiden käyttöä alkoholin, tupakoinnin sekä marijuanan osalta. Rakenna oheisesta aiheistosta logistinen regressiomalli marijuanan käytölle alkoholin \((x_1)\) ja tupakoinnin suhteen \((x_2)\), jossa \(x_1\) ja \(x_2\) ovat binäärisiä muuttujia. Mitä estimoiduista parametriarvoista voidaan päätellä?

\[ \begin{array}{|c|c|c|c|}\hline alkoholi&Tupakointi&Marijuana - Yes&Marijuana - No \\\hline Yes&Yes&911&538 \\\hline &No&44&456 \\\hline No&Yes&3&43 \\\hline &No&2&279 \\\hline \end{array} \] Ratkaisu
Käytössä on kaksi selittäjää, joten rakennetaan muotoa \[ p(x_1,x_2) = \frac{e^{\beta_0+\beta x_1+\beta_2x_2}}{1+e^{\beta_0+\beta x_1+\beta_2x_2}} \] oleva malli binomitodennäköisyydelle. Ainoana erona aikaisempaan tässä on, että selittävät muuttujat \(x_1\) ja \(x_2\) ovat tässä binäärisiä - päätetapahtumien lukumäärät ovat vastaavanlaisia kuin edellisessä esimerkissä. Nyt esimerkiksi ensimmäisen rivin havainnon \(x_1=1, x_2=1\) log-uskottavuus on verrannollinen suureeseen on \[911\cdot ln \left(\frac{e^{\beta_0+\beta_1\cdot1+\beta_2\cdot1 }}{1+e^{\beta_0+\beta_1\cdot1+\beta_\cdot1}}\right) + 538\cdot ln \left(1-\frac{e^{\beta_0+\beta_1\cdot1+\beta_2\cdot1}}{1+e^{\beta_0+\beta_1\cdot1+\beta_2\cdot1}}\right) .\] Kaikkien havaintojen uskottavuutta käyttäen saadaan numeerisella optimoinnilla suurimman uskottavuuden ratkaisu

\(\hat{\beta}_0 = -5.31\), \(\hat{\beta}_1 = 2.99\) ja \(\hat{\beta}_2 = 2.85,\) jolloin malli tapahtumistodennäköisyyksille on siis \[ \hat{p} = \frac{e^{-5.31+2.99x_1 +2.85x_2}}{1+e^{-5.31+2.99x_1 +2.85x_2}}. \] Tästä voidaan sanoa, että efektit alkoholilla (\(\hat{\beta}_1=2.99\)) ja tupakoinnilla (\(\hat{\beta}_2=2.85\)) ovat melko samanlaisia ja lisäävät mallin mukaan kumpikin merkittävästi riskiä marijuanan käytölle.

8.4 Poisson regressio

Poisson regressiossa selitetään havaittuja absoluuttisia tapahtumalukumääriä siten, että Poisson-prosessin intensiteetille (parametrille) \(\lambda\) rakennetaan selittävistä muuttujista \(x\) riippuva malli. Tyypillinen malli on rakentaa lineaarinen malli parametrin logaritmille, jolloin malli on siis \[log(\lambda) = \sum_{j=0}^{k}x_j\beta_j.\] Tämän voi kirjoittaa edelleen yhtäpitävästi muotoon \[ \lambda = exp \left( \sum_{j=0}^{k}x_{j}\beta_{j} \right).\]

Oletetaan seuraavaksi, että käytössä on riippumattomat Poisson-prosessin mukaiset lukumäärähavainnot \(y_i\), \(i=1,\ldots,n\), sekä näitä vastaavat havaintovektorit \(x_i=(x_{i1}, x_{i2},\ldots, x_{ik})\) selittävistä muuttujista. Tällöin uskottavuusfunktio parametrin \(\lambda\) suhteen on \[ L(\lambda | z) = \prod_{i=1}^{n}\frac{ \lambda^{y_i} exp (-\lambda)}{y_i!},\] josta edelleen voidaan tiputtaa nimittäjätermit \(y_i!\) pois, sillä ne eivät sisällä muuttujaa \(\lambda\). Käyttäen edellä kirjoitettua lineaarista mallia log-intensiteetille \(\lambda\) voidaan uskottavuusfunktiolle parametrivektorin \(\beta = [\beta_0, \beta_1, \ldots, \beta_k]\) suhteen kirjoittaa \[ L(\beta | z) \propto \prod_{i=1}^{n} \left(exp \left( \sum_{j=0}^{k}x_{ij}\beta_j \right) \right)^{y_i} exp \left( -exp\left(\sum_{j=0}^{k}x_{ij}\beta_j \right)\right).\]

Log-uskottavuusfunktio Poisson-regressiolle riippumattomien havaintojen tapauksessa on verrannollinen suureeseen \[ \sum_{i=1}^{n} y_i \left( \sum_{j=0}^{k}x_{ij}\beta_j \right) -exp \left( \sum_{j=0}^{k}x_{ij}\beta_j \right).\]

Jos käytössä on vain yksi selittävä muuttuja \(x\), jolloin \(\lambda = exp(\beta_0 +\beta_1x),\) niin log-uskottavuusfunktio on verrannollinen suureeseen \[ \sum_{i=1}^{n} y_i \left( \beta_0 +\beta_1x_i \right) -exp \left( \beta_0 +\beta_1x_i \right).\] Näistä voidaan estimoida edelleen suurimman uskottavuuden menetelmällä parametrivektori \(\beta\).

Esimerkki 8.4.1
Tutkimuksessa haluttiin selvittää muistin toimintaa ja kohdehenkilöiltä kysyttiin muistettujen vertailutapahtumien lukumäärää (\(y\)) 1-18 kuukauden (\(x\)) jälkeen

\[ \begin{array}{|c|c|c|c|c|c|c|c|c|c|c|c|c|c|c|c|c|c|c|} \hline x&1&2&3&4&5&6&7&8&9&10&11&12&13&14&15&16&17&18 \\ \hline y&15&11&14&17&5&11&10&4&8& 10&7&9&11&3&6&1&1&4 \\ \hline \end{array} \]

Sovita aineistoon muotoa \(\beta_0 +\beta_1 x\) oleva Poisson-regressio
Selvitä mikä on yhden kuukauden vaikutus

Ratkaisu

Tehdään tehtävänannon mukainen malli Poisson-jakauman parametrille
\(\lambda=e^{\beta_0+\beta_1 x}\). Nyt esimerkiksi log-uskottavuus ensimmäiselle havainnolle on verrannollinen suureeseen \[15(\beta_1+\beta_1\cdot 1)-exp(\beta_1+\beta_1\cdot 1).\] Kaikkien havaintojen uskottavuutta käyttäen saadaan numeerisella optimoinnilla suurimman uskottavuuden ratkaisu \(\hat{\beta}_0=2.803159\) ja \(\hat{\beta}_1 = -0.0837\).
Ratkaisun mukaan Poisson-intensiteetti kasvaa tekijän \(exp(-0.0837)=0.9196\) verran kun \(x\) kasvaa yhdellä. Tämä vastaa noin 8% heikkenemistä kuukaudessa.