Ordered probit -mallilla parempiin tuloksiin

Random Variable · Viesti Kirjoittaja **Random Variable** » 28.07.2005, 15:18

Omien opiskelujeni yhteydessä sain hiljattain valmiiksi harjoitustyön diskreeteistä regressiomalleista ja tarkemmin juuri ordered probit-mallista jota sovelsin kausien 2000-2004 Englannin valioliigan otteluihin.
Innostus tätä mallityyppiä kohtaan nousi sattumalta löytäessäni Walesilaisessä yliopistossa tehdyn tutkimuspaperin

"Modelling football match results and the efficiency of fixed-odds betting"

(Tuota voi yrittää hakea googlella tms. Yleensä nuo artikkelit ovat "tavalliselle kansalle" salasanojen ym.takana, mutta itse löysin alunperin tuon paperin ihan hakusanojen perusteella verkosta.)

Mistä sitten oikein on kysymys.
Perinteinen lähestymistapa jalkapallo- ottelun lopputuloksen mallinnuksessa on vuosikausia ollut Poisson- jakauman soveltaminen. Kuitenkin tässä, niin kuin lähes kaikissa tilastollisissa malleissa on omat hyvät ja huonot puolensa.

Poisson-jakauman ongelmia:

1. Koti-ja vierasmaalien riippumattomuus-kysymys
2. Maaliodotusarvon muodostaminen (vrt. ed.kohta)
3. Tarvittavien korjaustermien käyttäminen (palautuu 1.-kohtaan)
4. Standardi- vai yleistetty-Poisson

Lisäisisin listaan myös muutaman muun oman havainnon

5. Poisson tasapäistää liikaa otteluiden voimasuhteita
6. Poisson- oletus ei todellakaan järkevä tai mahdollinen monissa muissa lajeissa

Näitä kysymyksiä on tiedeyhteisössä pyritty ratkaisemaan monilla eri tavoilla. Aivan viimeisten vuosien aikana on alettu tutkia myös muita mahdollisia mallityyppejä ekonometrisessa kirjallisuudessa.

Ordered probit-mallinnuksen syvin idea on mallintaa (jalkapallo)ottelun lopputulosta ilman jakauma-approksimaatiota (Poisson) käyttämällä relevantteja selittäviä muuttujia (joukkueiden paremmuuserot, motivaatiot, paikalliskilpailu ym..). Lopulta näiden selittäjien tuottama "selitysindeksi" voidaan kuvata eri lopputulosvaihtoehdoille ns. siirtymäfunktioiden avulla, joista ordered probit- tilanteessa käytetään normaalijakauman kertymäfunktioita. Tuosta Goddardin artikkelista voi lueskella tarkemmin.

Näitä kysymyksiä tarkastelin siis omassa harjoitustyössä. Lopputulema oli aluksi kannustava, mutta oletetusti myös ongelmia syntyi. Sen vuoksi jatkoin "prosessia" lähestymällä asiaa vähän toisesta näkökulmasta ja tulokset olivatkin tällöin huomattavan paljon parempia. Jälkimmäisen mallinnuksen yhteydessä kokeilin ord. probit-mallin sekä poissonin antamia tn.arvioita teoreettisen pelikassan kasvun kannalta. Minulla sattuu olemaan keväältä 2004 noin 120 ottelun kerroinaineisto jota käytin tuossa avuksi muodostamalla tasoitusvetokertoimet +0,5 niin koti kuin vierasjoukkueelle jne..

Sovelsin siis tn-arvioita tähän melkolailla epäviralliseen ja teennäiseen kerroinaineistoon ja vertasin tuloksia Poisson-mallinnuksen tuloksiin niin ero oli MERKITTÄVÄ.Panostamalla Kelly/4 mukaan Poisson-kassa olisi kasvanut noin 10 %, kun vastaavasti Probit-mallin tilanteessa 40 %.

Edelleen, kokeilin malleja myös kauden 2004-2005 aineistoille, ja tulokset olivat "mielenkiintoisia". OP-malli (OP=ordered probit) antoi
keskimääräiseksi tn-arvioiden osumisprosentiksi noin 40 % ja vastaavasti PO (=Poisson) -malli noin 37 %. Mikäli vedonvälittäjä olisi laskenut kertoimensa PO-mallin tn-arvioiden mukaan ja pelaaja olisi käyttänyt OP-arvioita, niin pelaaja olisi jäänyt useita kymmeniä prosentteja plussalle. Mielenkiintoista ja osin kummallista on kuitenkin se, että päinvastaisessa tilanteessa tilanne olisi kääntynyt jopa vielä selvemmin
PO-mallin hyväksi !?

Tämän mallityypin leviämisen yksi heikkous on myös laskennalliset resurssit, sillä tietääkseni vain joissakin, yleensä varsin hintavissa, tilasto-ohjelmistoissa on tuo laskentaproseduuri.

Jonkinlainen hiljainen sääntöhän on että omia kertoimenlaskentamenetelmiä ei paljasteta liikaa, enkä usko että tämäkään ylittää sitä rajaa. Tämä menetelmä on kuitenkin erittäin varteenotettava vaihtoehto Poissonille ym. laskettaessa lähtökohtaprosentteja. Uskoisin, että kun jo nyt tämä mallityyppi toimi jalkapallossa varsin hyvin niin muissa lajeissa joissa Poisson-oletus ei päde yhtä vahvasti, se voisi olla ERITTÄIN käyttökelpoinen työkalu. Esimerkiksi tenniksessä ja muissa h2h-vetokohteissa voisi soveltaa monista ohjelmistoistakin löytyvää binääristä probit- mallia.

Kuten täällä monet ovat todenneet niin näissä kertoimenlaskenta-asioissa ei tarvitsisi aina keksiä pyörää uudes-taan vaan uusia menetelmiä voitaisiin kehittää vanhojen hyväksi koettujen menetelmien päälle.
Toivottavasti tällä foorumilla liikkuville tilastollisesta mallintamisesta kiinnostuneille tuossa on purtavaa ja pohdittavaa.

Itse olen saanut paljon hyvää oppia tältä foorumilta joten ajattelin että voin varsin helposti ja nopeastikin tuottaa jonkinmoisen lyhennelmän aiheesta pdf-muotoon ja jos kiinnostusta aiheeseen löytyy niin voin jopa antaa sen tänne kommentoitavaksi. Miten tämä sitten järjestetään niin...???

JussiQ · Viesti Kirjoittaja **JussiQ** » 28.07.2005, 15:40

En todellakaan ole tilastoalan asiantuntija, mutta muutama havainto näin maanläheisesti

-Otoskoko tuossa ilmeisesti varsin pieni, siis tuo 120 ottelua.

-Mitä ovat nämä OP-mallin eri muuttujat? Ja miten ne on määritelty?

-Miten PO-mallin arviot tehtiin? Ilmeisesti olet itse seurannut sarjaa ja laatinut moa:t?

Mutta siis varsin mielenkiintoinen lähtökohta, ja PDF-tiivistelmää varten varmasti on yleistä kiinnostusta. Joten jos vaan jaksat selvittää lisää.

Blackrock · Viesti Kirjoittaja **Blackrock** » 29.07.2005, 16:59

Tuo Goddardin artikkeli löytyy tuosta linkistä --> http://www.swan.ac.uk/economics/dpapers/2003/0311.pdf

Pikaisesti lukaisin läpi ja oli aivan mielenkiintoista luettavaa, vaikka en ole tilastollista mallintamista opiskellutkaan. Merkittävin muuttaja taitaa tuossa Orderet Probit mallissa olevan joukkueiden voitto-tasapeli-häviöprosentit tietyltä ajan jaksolta. Muut muuttajat on selitetty sivulla 4-9.

Kiinnostaa kyllä tietää lisää, jos jaksat sen tiivistelmän tehdä.

Lopuksi muutamia "tuttuja" väittämiä artikkelista:

- Contrary to football folklore, elimination from the cup appears to have a harmful effect on the team’s subsequent league results.

- The greater intensity of competition in local derbies may partially offset home advantage in such matches, or the psychological or practical difficulties of long distance travel for both teams and spectators may increase home advantage in matches between teams from opposite ends of the country.

- Previous results may be relevant if there are influences on matches involving particular teams which persist from year to year (‘jinxes’ or ‘horses for courses’ effects); or if a defeat inspires a team to raise its efforts in an effort to exact ‘revenge’ next time.

Random Variable · Viesti Kirjoittaja **Random Variable** » 01.08.2005, 09:51

Tervehdys vaan,
Nyt edellä mainittu "tiivistelmä" olisi valmiina. Tosin eipä se oikein mikään tiivistys ole kun mittaa sillä on 39 sivua, tosin alkuperäinen työ on noin 60 sivun mittainen. Tuosta olen siis poistanut lähinnä kaiken tilastotieteellisen kaavan pyörityksen ym.

Nyt on vain ongelmana se, että mihinkäs suuntaan oikein lähettelen tätä. Omaa kotisivua tms. ei ole valitettavasti käytössä. Tuolla tiedostot-osaltollahan on jotain artikkeleita ja graduja. Kelpaisikohan tämmöinen vaatimaton harkkatyö sinne ??

Kommentoin oikein mielelläni ja toivonkin ammattimiesten kommentteja tosta työstä. Esimerkiksi ed. mainittu 120 ottelun kerroinsarja on todellakin liian pieni, ja tuon tämän myös tuossa työssä esille.

Berrie · Viesti Kirjoittaja **Berrie** » 01.08.2005, 12:31

Tiedoksi ylläpidolle ja R.V:lle: laitoin privaa eli asia on hoitumassa.

Edit: Asia on hoidettu.

Tiedostot-osiosta löytyy kyseinen pdf.

Vielä kerran kiitoksia, hienoa että aktiivisuutta ja yhteistyöhalukkuutta löytyy.

Anselmi · Viesti Kirjoittaja **Anselmi** » 02.08.2005, 19:01

Ihan mielenkiintoista, vaikken oikein päässytkään jyvälle, että miten noi lopulliset prosenttiarviot saadan aikaan. Kiva tiivistelmä.

KXJ · Viesti Kirjoittaja **KXJ** » 03.08.2005, 00:01

Jyvälle pääsy on tosiaan hieman hankalaa. Ymmärsinkö oikein jos ymmärsin, että OP mallissa on kyseessä lineaarinen malli jossa on useampi selittävä muuttuja ja tarkoituksen on estimoida normaalijakauman kertymäfunktiosta kaksi pistettä. Ilmeisesti regressiokertoimet määritellään näiden pisteiden määräämistä todennäköisyyksistä ja toteutuneiden tulosten erotusten neliösumman minimoimalla?

Jos näin, niin mitä etua tästä on verrattuna siihen, että estimoitaisiin jollakin lineaarisella tai sen muunnoksella suoraan todennäköisyyksiä, ei oikein avaudu ilman OP-mallin teoriaa. Kierretäänkö tällä vain lineaarisuusoletuksesta syntyviä ongelmia?

Edelleen, selittävistä muuttujista voisi ihmetellä sen verran, että walesiläiset eivät käytä kuin binäärimuuttujia tai hyvin perusteltuja välimatkamuuttujia. R.V.:n työssä muuttujat Paine ja Tärkeys ovat välimatkamuuttujia, jotka ovat mielestäni huonosti perusteltuja. Eikö olisi parempi, että jokainen Paineen ja Tärkeyden mahdollinen arvo mallinnettaisiin omalla binäärimuuttujalla? Voisiko se helpottaa indikaattoriselittäjien regressiokertoimien tolkuttomuutta?

Käytännön tilastotieteen taidoista uupuu sen verran, että mikä on tuo toinen vakio, intercept2, taulukoissa?

Pelikassan kasvusta ja siihen liittyvästä satunnaisuudesta saisi ehkä paremman kuvan jos siihen yrittäisi sisällyttää joitakin jakauman tunnuslukuja tietyillä oletuksilla. Voisi vaikka simuloida pelit oletuksilla, että malli antaa absoluuttiset todennäköisyydet tai kertoimiin sisältyy ne tai sitten näiden kahden jonakin lineaarikombinaationa. Sopivana tunnuslukuna voisi olla vaikka todennäköisyys, että kassa on plussalla.

Lähestymistapa, eli ei jakaumaoletusta on mielestäni oikea. Jakauman itse oletan vain Livevedoissa ja siinäkin epäsuorasti käyttämällä Markovin ketjua. Itse tulokset ovat mielenkiintoisia, pohdin niitä tarkemmin joskus muulloin.

Random Variable · Viesti Kirjoittaja **Random Variable** » 04.08.2005, 12:52

Kiitoksia kommenteista jo tässä vaiheessa. Varsin perusteltuja kysymyksiä .

Todellakin, voi olla vaikeaa päästä kärryille. Esimerkiksi tuon Goddardinkin artikkelin ýmmärtäminen on huomattavan työlästä ihan aihetta opiskelevallekkin.

JussiQ:n kysymyksistä varsinkin tuon pelikassan tarkastelujakso n.120 ottelua on todellakin liian lyhyt, niin kuin myös tuossa työssä totean. OP-mallin muuttujia on kuvattu tiivistelmän sivulla 14. Aiemmin on pohdittu jo selittäjistä ehdottomasti merkittävimpiä eli noita voittosuhde-lukuja.

PO eli Poisson-mallinnus on toteutettu perinteisenä lineaarisena regressioanalyysinä näistä voittosuhde-luvuista eli kotijoukkueen ja vierasjoukkueen lukujen perusteella on pyritty selittämään toteutuneita maalimääriä. Tähän tarkoitukseen on olemassa parempiakin menetelmiä.

Anselmi kysyi "lopullisista tn-arvioista". Niin kuin tuossa pdf:ssä olen yrittänyt tuoda esille, niin näihin lopullisiin lukuihin päästiin vähän "kyseenalaisten kikkailuiden" tuloksena, kun ensin aineistoa jaoteltiin ja sitten vielä puututtiin mallien kertoimiin.
Ihannemaailmassa tämmöinen ei olisi tarpeen kun havaintoja olisi enemmän jne...

OP-malli ei ole lineaarinen malli, eikä siinä käytetä KXJ:n mainitsemaa neliösummien minimointitekniikka. Näin tilastollisin termein estimointi menee niin, että muodostetaan log-uskottavuusfunktio joka maksimoidaan numeerisilla menetelmillä, koska log-uskottavuusfunktiolle ei voida johtaa tarkkaa ratkaisua. OP-malli on siis periaatteessa
epälineaarinen malli.

Tavoitteena on tässä kolmen tuloksen tilanteessa (1,X,2) estimoida kaksi pistettä normaalijakaumasta jonka kautta päästään sitten varsinaisiin todennäköisyyksiin kiinni.

Nuo intercept1 ja intercept2 ovat siis mallin "vakioita" joiden rooli havainnoillistuu sivulla 4 (vakiot ovat noita gammoja). Niitä ei voida verrata lin.reg.mallien vakioihin.

Selittävissä muuttujissa olisi todellakin kehittämisen varaa, ja todellakin tuo ajatus noista välimatka-asteikon muuttujista binäärisiin muuttujiin siirtymiseksi on hyvinkin järkevä ja kokeilemisen arvoinen.

Paljonhan tuossa mallissa olisi vielä kehitettävää... Olisi mielenkiintoista kuulla muiden ajatuksia esimerkiksi juuri tuon Poisson-jakauman käyttämisestä lähtökohtaisia tn.arvoita muodostettaessa. Allekirjoitatteko ensimmäisessä viestissäni olleet havainnot ?

kit · Viesti Kirjoittaja **kit** » 04.08.2005, 19:18

Näköjään pääsen taas pitkästä aikaa puolustamaan Poissonia. Edellisestä kerrasta taitaakin jo olla jokunen vuosi aikaa.

Ihan mielenkiintoiselta vaikuttava työ, jossa ainakin on tajuttu - toisin kuin Raitasen tekeleessä - sellainen yllättävä tosiasia, että maaliodotusarvot eivät jokaisessa Valioliigan ottelussa välttämättä ole samat

Yritän perehtyä siihen paremmalla ajalla, mutta nostan nyt aluksi yhden kissan pöydälle sivulta 29:
"Luonnollisesti on täysin mahdollista, että omat maaliodotusarvot eivät ole aivan kohdallaan, mutta on myös ihan selvää, että käytettävä jakauma-approksimaatio [Poisson] on sellainen, joka painottaa tätä Under-vaihtoehtoa."

Ei ole. Olet siis kehittänyt jostain omat maaliodotusarvot (niin ainakin tuon ymmärrän, enkä löytänyt mitä muutakaan ne maalioa:t olisivat) ja kun niiden mukaan Poisson yliarvioi undereita, vika on Poissonissa

Olenhan ymmärtänyt jotain väärin?

Korjaamaton Poisson mieluummin aliarvioi jonkin verran underia siitä yksinkertaisesta syystä, että tasapeleistä yli 60% on undereita (u2.5&u3.5) ja koska Poisson olettaa koti- ja vierasmaalit toisistaan riippumattomiksi, antaa korjaamaton Poisson useimmissa tapauksissa liian vähän tasurille. Toisin sanoen tasurikorjauksesta yli 60% menee under tuloksille 0-0 ja 1-1. Jos tasurista ei annettaisi yhtä sarjapistettä kummallekin joukkueelle, tätäkään vääristymää tuskin olisi. Jos saat Poissonilla underille liikaa, vika on maaliodotusarvoissa.

Tässä vaiheessa on varmaan syytä esittää todistusaineistoa. Edelliset sepustukseni tein Valioliigasta, mutta koska en sitä tähän hätään löytänyt, tein pikatutkimuksen Norjan pääsarjasta. Aineisto käsittää 10 vuotta ja vajaat 2000 matsia. Joukkueet olen jaotellut neljään tasoryhmään (Q1-Q4). Sinullahan niitä oli viisi, mutta Norjan pääsarjassa on vain 14 joukkuetta.

Tässä muutama, valikoimaton otos:
<pre>
Toteutunut-% Poisson-%
Koti Vieras N u2.5 u3.5 u2.5 u3.5

Q1 Q4 90 22 46 25 45
Q4 Q1 90 31 50 28 49

Q1&Q2 Q3&Q4 490 30 52 31 52
Q3&Q4 Q1&Q2 490 38 58 35 57

Q1&Q2&Q3 Qk+1 400 31 52 32 54
Q2&Q3&Q4 Qk-1 400 39 57 37 59

</pre>

Kahdessa viimeisessä otoksessa siis vierasjoukkue on luokkaa huonompi / luokkaa parempi kuin kotijoukkue.

Silmämääräisestikin tuosta näkee, että Poisson-lukemat ovat erittäin lähellä toteutumalukuja. Kaikkien otosten summa, joka sinällään ei paljoa kerro, on u2.5:n kohdalla 3 %-yksikköä pienempi Poissonilla.

Entäpä sitten merkkijakaumat:
<pre>
Toteutunut-% Poisson-%

Koti Vieras 1 X 2 1 X 2
Q1 Q4 78 12 10 78 13 9
Q4 Q1 13 19 68 13 16 71

Q1&Q2 Q3&Q4 71 16 13 71 16 13
Q3&Q4 Q1&Q2 26 23 50 26 22 52

Q1&Q2&Q3 Qk+1 62 20 18 61 19 19
Q2&Q3&Q4 Qk-1 34 26 41 36 23 40

</pre>

Kovin ovat yhdenmukaisia nämäkin. Viimeisessä otoksessa näkyy hyvin tuo tasurikorjauksen tarve, eli tasaväkisten joukkueiden kohdatessa Poisson antaa em. syistä liian vähän tasurille, mikä on helposti korjattavissa oleva ongelma.

Varmuuden vuoksi voidaan vielä tarkastella yksittäisiä maalilukuja. Luvut ovat otoksesta Q1&Q2 vs Q3&Q4:

<pre>
Kotijoukkue Vierasjoukkue
Toteuma Poisson Toteuma Poisson
0 0.10 0.08 0.38 0.36
1 0.19 0.20 0.35 0.37
2 0.23 0.25 0.19 0.19
3 0.23 0.22 0.06 0.06
4 0.14 0.14 0.02 0.02
5 0.05 0.07 0.00 0.00
6 0.03 0.03 0.00 0.00
7 0.01 0.01 0.00 0.00
8 0.00 0.00 0.00 0.00
</pre>

Paha tuotakaan on mennä vääristyneeksi väittämään.

Mitä tulee esittämiisi Poisson-jakauman ongelmiin, niin riippumattomuus-kysymys on ainoa, jonka allekirjoitan, mutta sen kanssa pystyy elämään oikein mainiosti. Poisson ei tasapäistä voimasuhteista, kuten edellä olevasta ja mistä muusta tahansa vastaavasta aineistosta käy ilmi. Ai niin, ja ei se tosiaankaan sovi kaikkiin lajeihin. Esim jenkkifutikseen ja mäkihyppyyn en sitä ihan heti lähtisi kokeilemaan. Myös pesäpalloon se soveltuu huonosti, ymmärrettävistä syistä.

Ja kuten täällä jo useaan kertaan on todettu, pelikassatutkimuksella 120 matsin otoksella on korkeintaan viihdearvoa. Toki silloinkin Poissonin maaliodotusten tulisi olla järkeviä. No onhan täällä esillä eräs toinenkin "tutkimus", jossa 18 pelikohteen perusteella todettiin mallin menestys "kohtuullisen hyväksi" palautusprosentin oltua 143%

Ylikerroin.com - Parhaat veikkausvihjeet

Ordered probit -mallilla parempiin tuloksiin

Ordered probit -mallilla parempiin tuloksiin

Pisteitä

Minikommentit

Pisteitä

Minikommentit

Pisteitä

Minikommentit

Pisteitä

Minikommentit

Pisteitä

Minikommentit

Pisteitä

Minikommentit

Pisteitä

Minikommentit

Pisteitä

Minikommentit

Pisteitä

Minikommentit