Ordered probit -mallilla parempiin tuloksiin
Lähetetty:
Omien opiskelujeni yhteydessä sain hiljattain valmiiksi harjoitustyön diskreeteistä regressiomalleista ja tarkemmin juuri ordered probit-mallista jota sovelsin kausien 2000-2004 Englannin valioliigan otteluihin.
Innostus tätä mallityyppiä kohtaan nousi sattumalta löytäessäni Walesilaisessä yliopistossa tehdyn tutkimuspaperin
"Modelling football match results and the efficiency of fixed-odds betting"
(Tuota voi yrittää hakea googlella tms. Yleensä nuo artikkelit ovat "tavalliselle kansalle" salasanojen ym.takana, mutta itse löysin alunperin tuon paperin ihan hakusanojen perusteella verkosta.)
Mistä sitten oikein on kysymys.
Perinteinen lähestymistapa jalkapallo- ottelun lopputuloksen mallinnuksessa on vuosikausia ollut Poisson- jakauman soveltaminen. Kuitenkin tässä, niin kuin lähes kaikissa tilastollisissa malleissa on omat hyvät ja huonot puolensa.
Poisson-jakauman ongelmia:
1. Koti-ja vierasmaalien riippumattomuus-kysymys
2. Maaliodotusarvon muodostaminen (vrt. ed.kohta)
3. Tarvittavien korjaustermien käyttäminen (palautuu 1.-kohtaan)
4. Standardi- vai yleistetty-Poisson
Lisäisisin listaan myös muutaman muun oman havainnon
5. Poisson tasapäistää liikaa otteluiden voimasuhteita
6. Poisson- oletus ei todellakaan järkevä tai mahdollinen monissa muissa lajeissa
Näitä kysymyksiä on tiedeyhteisössä pyritty ratkaisemaan monilla eri tavoilla. Aivan viimeisten vuosien aikana on alettu tutkia myös muita mahdollisia mallityyppejä ekonometrisessa kirjallisuudessa.
Ordered probit-mallinnuksen syvin idea on mallintaa (jalkapallo)ottelun lopputulosta ilman jakauma-approksimaatiota (Poisson) käyttämällä relevantteja selittäviä muuttujia (joukkueiden paremmuuserot, motivaatiot, paikalliskilpailu ym..). Lopulta näiden selittäjien tuottama "selitysindeksi" voidaan kuvata eri lopputulosvaihtoehdoille ns. siirtymäfunktioiden avulla, joista ordered probit- tilanteessa käytetään normaalijakauman kertymäfunktioita. Tuosta Goddardin artikkelista voi lueskella tarkemmin.
Näitä kysymyksiä tarkastelin siis omassa harjoitustyössä. Lopputulema oli aluksi kannustava, mutta oletetusti myös ongelmia syntyi. Sen vuoksi jatkoin "prosessia" lähestymällä asiaa vähän toisesta näkökulmasta ja tulokset olivatkin tällöin huomattavan paljon parempia. Jälkimmäisen mallinnuksen yhteydessä kokeilin ord. probit-mallin sekä poissonin antamia tn.arvioita teoreettisen pelikassan kasvun kannalta. Minulla sattuu olemaan keväältä 2004 noin 120 ottelun kerroinaineisto jota käytin tuossa avuksi muodostamalla tasoitusvetokertoimet +0,5 niin koti kuin vierasjoukkueelle jne..
Sovelsin siis tn-arvioita tähän melkolailla epäviralliseen ja teennäiseen kerroinaineistoon ja vertasin tuloksia Poisson-mallinnuksen tuloksiin niin ero oli MERKITTÄVÄ.Panostamalla Kelly/4 mukaan Poisson-kassa olisi kasvanut noin 10 %, kun vastaavasti Probit-mallin tilanteessa 40 %.
Edelleen, kokeilin malleja myös kauden 2004-2005 aineistoille, ja tulokset olivat "mielenkiintoisia". OP-malli (OP=ordered probit) antoi
keskimääräiseksi tn-arvioiden osumisprosentiksi noin 40 % ja vastaavasti PO (=Poisson) -malli noin 37 %. Mikäli vedonvälittäjä olisi laskenut kertoimensa PO-mallin tn-arvioiden mukaan ja pelaaja olisi käyttänyt OP-arvioita, niin pelaaja olisi jäänyt useita kymmeniä prosentteja plussalle. Mielenkiintoista ja osin kummallista on kuitenkin se, että päinvastaisessa tilanteessa tilanne olisi kääntynyt jopa vielä selvemmin
PO-mallin hyväksi !?
Tämän mallityypin leviämisen yksi heikkous on myös laskennalliset resurssit, sillä tietääkseni vain joissakin, yleensä varsin hintavissa, tilasto-ohjelmistoissa on tuo laskentaproseduuri.
Jonkinlainen hiljainen sääntöhän on että omia kertoimenlaskentamenetelmiä ei paljasteta liikaa, enkä usko että tämäkään ylittää sitä rajaa. Tämä menetelmä on kuitenkin erittäin varteenotettava vaihtoehto Poissonille ym. laskettaessa lähtökohtaprosentteja. Uskoisin, että kun jo nyt tämä mallityyppi toimi jalkapallossa varsin hyvin niin muissa lajeissa joissa Poisson-oletus ei päde yhtä vahvasti, se voisi olla ERITTÄIN käyttökelpoinen työkalu. Esimerkiksi tenniksessä ja muissa h2h-vetokohteissa voisi soveltaa monista ohjelmistoistakin löytyvää binääristä probit- mallia.
Kuten täällä monet ovat todenneet niin näissä kertoimenlaskenta-asioissa ei tarvitsisi aina keksiä pyörää uudes-taan vaan uusia menetelmiä voitaisiin kehittää vanhojen hyväksi koettujen menetelmien päälle.
Toivottavasti tällä foorumilla liikkuville tilastollisesta mallintamisesta kiinnostuneille tuossa on purtavaa ja pohdittavaa.
Itse olen saanut paljon hyvää oppia tältä foorumilta joten ajattelin että voin varsin helposti ja nopeastikin tuottaa jonkinmoisen lyhennelmän aiheesta pdf-muotoon ja jos kiinnostusta aiheeseen löytyy niin voin jopa antaa sen tänne kommentoitavaksi. Miten tämä sitten järjestetään niin...???
Innostus tätä mallityyppiä kohtaan nousi sattumalta löytäessäni Walesilaisessä yliopistossa tehdyn tutkimuspaperin
"Modelling football match results and the efficiency of fixed-odds betting"
(Tuota voi yrittää hakea googlella tms. Yleensä nuo artikkelit ovat "tavalliselle kansalle" salasanojen ym.takana, mutta itse löysin alunperin tuon paperin ihan hakusanojen perusteella verkosta.)
Mistä sitten oikein on kysymys.
Perinteinen lähestymistapa jalkapallo- ottelun lopputuloksen mallinnuksessa on vuosikausia ollut Poisson- jakauman soveltaminen. Kuitenkin tässä, niin kuin lähes kaikissa tilastollisissa malleissa on omat hyvät ja huonot puolensa.
Poisson-jakauman ongelmia:
1. Koti-ja vierasmaalien riippumattomuus-kysymys
2. Maaliodotusarvon muodostaminen (vrt. ed.kohta)
3. Tarvittavien korjaustermien käyttäminen (palautuu 1.-kohtaan)
4. Standardi- vai yleistetty-Poisson
Lisäisisin listaan myös muutaman muun oman havainnon
5. Poisson tasapäistää liikaa otteluiden voimasuhteita
6. Poisson- oletus ei todellakaan järkevä tai mahdollinen monissa muissa lajeissa
Näitä kysymyksiä on tiedeyhteisössä pyritty ratkaisemaan monilla eri tavoilla. Aivan viimeisten vuosien aikana on alettu tutkia myös muita mahdollisia mallityyppejä ekonometrisessa kirjallisuudessa.
Ordered probit-mallinnuksen syvin idea on mallintaa (jalkapallo)ottelun lopputulosta ilman jakauma-approksimaatiota (Poisson) käyttämällä relevantteja selittäviä muuttujia (joukkueiden paremmuuserot, motivaatiot, paikalliskilpailu ym..). Lopulta näiden selittäjien tuottama "selitysindeksi" voidaan kuvata eri lopputulosvaihtoehdoille ns. siirtymäfunktioiden avulla, joista ordered probit- tilanteessa käytetään normaalijakauman kertymäfunktioita. Tuosta Goddardin artikkelista voi lueskella tarkemmin.
Näitä kysymyksiä tarkastelin siis omassa harjoitustyössä. Lopputulema oli aluksi kannustava, mutta oletetusti myös ongelmia syntyi. Sen vuoksi jatkoin "prosessia" lähestymällä asiaa vähän toisesta näkökulmasta ja tulokset olivatkin tällöin huomattavan paljon parempia. Jälkimmäisen mallinnuksen yhteydessä kokeilin ord. probit-mallin sekä poissonin antamia tn.arvioita teoreettisen pelikassan kasvun kannalta. Minulla sattuu olemaan keväältä 2004 noin 120 ottelun kerroinaineisto jota käytin tuossa avuksi muodostamalla tasoitusvetokertoimet +0,5 niin koti kuin vierasjoukkueelle jne..
Sovelsin siis tn-arvioita tähän melkolailla epäviralliseen ja teennäiseen kerroinaineistoon ja vertasin tuloksia Poisson-mallinnuksen tuloksiin niin ero oli MERKITTÄVÄ.Panostamalla Kelly/4 mukaan Poisson-kassa olisi kasvanut noin 10 %, kun vastaavasti Probit-mallin tilanteessa 40 %.
Edelleen, kokeilin malleja myös kauden 2004-2005 aineistoille, ja tulokset olivat "mielenkiintoisia". OP-malli (OP=ordered probit) antoi
keskimääräiseksi tn-arvioiden osumisprosentiksi noin 40 % ja vastaavasti PO (=Poisson) -malli noin 37 %. Mikäli vedonvälittäjä olisi laskenut kertoimensa PO-mallin tn-arvioiden mukaan ja pelaaja olisi käyttänyt OP-arvioita, niin pelaaja olisi jäänyt useita kymmeniä prosentteja plussalle. Mielenkiintoista ja osin kummallista on kuitenkin se, että päinvastaisessa tilanteessa tilanne olisi kääntynyt jopa vielä selvemmin
PO-mallin hyväksi !?
Tämän mallityypin leviämisen yksi heikkous on myös laskennalliset resurssit, sillä tietääkseni vain joissakin, yleensä varsin hintavissa, tilasto-ohjelmistoissa on tuo laskentaproseduuri.
Jonkinlainen hiljainen sääntöhän on että omia kertoimenlaskentamenetelmiä ei paljasteta liikaa, enkä usko että tämäkään ylittää sitä rajaa. Tämä menetelmä on kuitenkin erittäin varteenotettava vaihtoehto Poissonille ym. laskettaessa lähtökohtaprosentteja. Uskoisin, että kun jo nyt tämä mallityyppi toimi jalkapallossa varsin hyvin niin muissa lajeissa joissa Poisson-oletus ei päde yhtä vahvasti, se voisi olla ERITTÄIN käyttökelpoinen työkalu. Esimerkiksi tenniksessä ja muissa h2h-vetokohteissa voisi soveltaa monista ohjelmistoistakin löytyvää binääristä probit- mallia.
Kuten täällä monet ovat todenneet niin näissä kertoimenlaskenta-asioissa ei tarvitsisi aina keksiä pyörää uudes-taan vaan uusia menetelmiä voitaisiin kehittää vanhojen hyväksi koettujen menetelmien päälle.
Toivottavasti tällä foorumilla liikkuville tilastollisesta mallintamisesta kiinnostuneille tuossa on purtavaa ja pohdittavaa.
Itse olen saanut paljon hyvää oppia tältä foorumilta joten ajattelin että voin varsin helposti ja nopeastikin tuottaa jonkinmoisen lyhennelmän aiheesta pdf-muotoon ja jos kiinnostusta aiheeseen löytyy niin voin jopa antaa sen tänne kommentoitavaksi. Miten tämä sitten järjestetään niin...???