Tilastomatematiikkaa rautalangaksi
-
Chivas Regal
- Jäsen
- Viestit: 420
- Liittynyt: 06.03.2003, 14:51
- Pisteitä: 0
- Paikkakunta: Lahti
Tilastomatematiikkaa rautalangaksi
Taustana kerrottakoon, että olen tilastoinut Exceliin erään nimeltä mainitsemattoman jalkapalloliigan ottelutuloksia useiden vuosien ajalta.. Joukkueille olen laskenut joka otteluun "ELO"-luvut. Näitä lukuja olen sitten tilastoinut ja piirtänyt Exceliin scatterilla käppyrät.
Kotivoitoille on nyt siis käppyrä jolla on tämmöinen toisen asteen yhtälö "kaavana": 0,5639x^2+0,2679x+0,0632. R^2 = 0,9139. Tähän asti kaikki selvää ja ihan OK.. Osaan siis kyllä laskea esim. että "ELO"-luku 0,9 antaa "vasteena" 0,77. Nyt kiinnostaa tietää sellainen asia, että voiko noilla tiedoilla laskea tuolle vasteelle jonkinlaiset plus/miinus -rajat vaikkapa 95% luottamusvälille. Vähän niinkuin noissa gallupeissa on tapana laskea. Saattaa mennä varianssianalyysin puolelle ja siinä kohtaa loppui meikäläisen taidot.
epäilee avujaan,
jos koskaan peliin uskalla
ei täyttä panostaan
James Graham, Montrosen markiisi (1612-1650)
- S.Mäenala
- Jäsen
- Viestit: 1190
- Liittynyt: 18.01.2011, 19:17
- Pisteitä: 3737
- Paikkakunta: Kamppi
Re: Tilastomatematiikkaa rautalangaksi
Tässä taitaa nyt olla kyseessä jonkinlainen sekaannus Excel'in trendline- ja regressio-työkalujen välillä.Chivas Regal kirjoitti:Mulla olisi yksi kysymys mikä liippaa hiukan regressioanalyysin tulkintaan..
Taustana kerrottakoon, että olen tilastoinut Exceliin erään nimeltä mainitsemattoman jalkapalloliigan ottelutuloksia useiden vuosien ajalta.. Joukkueille olen laskenut joka otteluun "ELO"-luvut. Näitä lukuja olen sitten tilastoinut ja piirtänyt Exceliin scatterilla käppyrät.
Kotivoitoille on nyt siis käppyrä jolla on tämmöinen toisen asteen yhtälö "kaavana": 0,5639x^2+0,2679x+0,0632. R^2 = 0,9139. Tähän asti kaikki selvää ja ihan OK.. Osaan siis kyllä laskea esim. että "ELO"-luku 0,9 antaa "vasteena" 0,77. Nyt kiinnostaa tietää sellainen asia, että voiko noilla tiedoilla laskea tuolle vasteelle jonkinlaiset plus/miinus -rajat vaikkapa 95% luottamusvälille. Vähän niinkuin noissa gallupeissa on tapana laskea. Saattaa mennä varianssianalyysin puolelle ja siinä kohtaa loppui meikäläisen taidot.
Regressio-työkalut kattavat ymmärrettävästi vain lineaarisen regressiomallin.
Ei-lineaaristen regressiokäyrien muodostaminen on matemaattisesti yleensä vaikea/mahdoton tehtävä.
Käyrille voidaan erilaisilla iterointimalleilla laskea estimaatteja, mutta ne ovat parhaimmillaankin jossainmäärin harhaisia.
Excel'in trendline-käyrät eivät ole yksikäsitteisiä eivätkä ne muodostustavaltaan vastaa ei-lineaarisia regressiokäyriä.
Trendline-työkalun laskema determinaatio-kerroin (Pearson'in korrelaatiokertoimen neliö) lasketaan trendlinekäyrän suhteen.
Sen merkitys on yleensä vain auttaa käyttäjää valitsemaan parhaiten sopiva optimointimalli.
Mitään 95%-luottamusväliä sellaisena kuin se lineaarisen regression tapauksessa ymmärretään, ei voida määrittää eikä se olisi mielekäskään.
Jos tilannetta haluaa yleisemmällä tasolla hahmottaa, se olisi seuraavan esimerkkikuvan kaltainen:
(Olen kuvassa käyttänyt Sinun trendline-käyrääsi regressiokäyrän estimaattina.)
- luottamusvälin suuruus ei ole vakio vaan riippuu selittävän muuttujan arvosta
- luottamusvälin jakautuma regressiokäyrän suhteen ei ole vakio vaan riippuu selittävän muuttujan arvosta.
Minikommentit
-
Chivas Regal
- Jäsen
- Viestit: 420
- Liittynyt: 06.03.2003, 14:51
- Pisteitä: 0
- Paikkakunta: Lahti
Re: Tilastomatematiikkaa rautalangaksi
Muutin trendlinen lineaariseksi, jolloin vaste hieman muuttui. Samaten R^2 -arvo tuli hieman pienemmäksi. Funktio näyttää nyt tältä: y= 0,8464x-0,0355 ja R^2 = 0,8886.
Voidaanko tästä(kään) tehdä mitään sen pidemmälle meneviä johtopäätöksiä? Ajatuksena tosiaan oli, että voisin saada vasteille virhemarginaalin, mitä voisi sitten hyödyntää omissa vedoissa..
Excelissähän on myös Data Analysis Tool Pack, jolla on mahdollista tehdä regressioanalyysejä.. Niinpä ajoinkin datan läpi ja sain ulos kaikennäköistä.. Ongelmana vaan on, että en oikein osaa tulkita noita lukuja, mitä sieltä ulos puskee.. On ANOVAA, residuaalia, t-Statia, P-valueta ja vaikka ja mitä..
Kai se on mentävä tilastomatematiikan kurssille... Tai sitten törkään tuon raakadatan jollekin viisaammalle pureksittavaksi.. vaikkapa tohtori Mäenalalle...
epäilee avujaan,
jos koskaan peliin uskalla
ei täyttä panostaan
James Graham, Montrosen markiisi (1612-1650)
Minikommentit
-
credit
- Jäsen
- Viestit: 5495
- Liittynyt: 02.08.2003, 00:47
-
Tuotto: +232.86 yks.
Palautus%: 104.64%
Panosten ka: 1.57 yks.
Vetoja: 3193
- Pisteitä: 4785
Re: Tilastomatematiikkaa rautalangaksi
Jos oikein ymmärsin, tarkoitat "vasteella" selitettävää muuttujaa. Jos ymmärsin väärin, alla oleva teksti ei kaikilta osin sovellu vastaukseksi kysymykseesi.Chivas Regal kirjoitti:Kotivoitoille on nyt siis käppyrä jolla on tämmöinen toisen asteen yhtälö "kaavana": 0,5639x^2+0,2679x+0,0632. R^2 = 0,9139. Tähän asti kaikki selvää ja ihan OK.. Osaan siis kyllä laskea esim. että "ELO"-luku 0,9 antaa "vasteena" 0,77. Nyt kiinnostaa tietää sellainen asia, että voiko noilla tiedoilla laskea tuolle vasteelle jonkinlaiset plus/miinus -rajat vaikkapa 95% luottamusvälille.
Jonkin verran tilastotiedettä opiskelleena väittäisin, ettei selitettäville muuttujille ole tapana laskea luottamusvälejä. Tämä johtuu siitä, että muuttujat ovat muuttujia. Ne siis nimensä mukaan vaihtelevat "vapaasti". Sen sijaan (lineaarisen) mallin parametriestimaateille voidaan laskea luottamusvälit, kun halutaan arvioida kyseisten estimaattien hyvyyttä. Sinun mallissasi parametreja ovat kertoimet 0,5639 ja 0,2679 sekä vakioparametri 0,0632.
Parametrin ajatellaan olevan jokin kiinteä, mutta tuntematon luku. Mallinnuksessa datasta estimoidaan parametreille jotkin arvot, jotka datan määrästä ja laadusta riippuen osuvat kohdilleen joskus paremmin ja joskus huonommin. (Ja jos malli on rakennettu väärin, parametriestimaatit eivät tietenkään ole muuta kuin datasta laskettuja lukuja, joilla ei ole vastinetta todellisuudessa.) Monesti tilastollisessa tutkimuksessa kiinnostuksen kohteena on se, poikkeaako parametri jostain tietystä luvusta (yleensä nollasta) tilastollisesti merkitsevällä suuruudella. Jos mallin ensisijainen tarkoitus on kuitenkin ennustaa selitettävän muuttujan arvoja, ei parametriestimaattien luottamusväleillä ole juuri merkitystä; silloin on tärkeämpää kiinnittää huomiota esim. mallin selitysasteeseen eli käytännössä siihen, että malli on spesifioitu oikein ja kaikki tarpeelliset muuttujat ovat siinä mukana.
S.Mäenala kirjoitti, että "ei-lineaaristen regressiokäyrien muodostaminen on matemaattisesti yleensä vaikea/mahdoton tehtävä". En oikein ymmärrä, mitä hän tällä tarkoitti, koska regressioanalyysissa on varsin normaalia käsitellä myös ei-lineaarisia riippuvuussuhteita, joskin ne yleensä pyritään palauttamaan lineaariseen regressioon (esim. muuttujien logaritmoimisella). Sinun mallissasi en taas ymmärrä sitä, miksi olet päätynyt käyttämään polynomifunktiota. Näyttikö se sopivan parhaiten dataan vai oliko sille jokin teoreettinen perustelu? Samalla voisit kyllä selittää alusta alkaen, mitä olet oikein yrittänyt laskea...
Siltä varalta, että olen ymmärtänyt kysymyksesi joltain osin väärin, totean yhden asian, joka varmasti pitää paikkansa: luottamusväliä ei voi laskea ilman tietoa otoskoosta. Antamasi tiedot eivät siis riitä minkäänlaisen luottamusvälin laskemiseen.
Minikommentit
-
credit
- Jäsen
- Viestit: 5495
- Liittynyt: 02.08.2003, 00:47
-
Tuotto: +232.86 yks.
Palautus%: 104.64%
Panosten ka: 1.57 yks.
Vetoja: 3193
- Pisteitä: 4785
Re: Tilastomatematiikkaa rautalangaksi
Kun R^2 pienenee, mallin selitysaste laskee. Toisin sanoen uusi spesifiointi on olemassa olevan datan näkökulmasta huonompi kuin aiempi, jos tarkoituksena on ennustaa tulevia arvoja. Toisaalta se ei tarkoita sitä, että uusi malli olisi teoreettisesti oikeampi kuin vanha. Asia voi olla täysin päinvastoin.Chivas Regal kirjoitti: Muutin trendlinen lineaariseksi, jolloin vaste hieman muuttui. Samaten R^2 -arvo tuli hieman pienemmäksi. Funktio näyttää nyt tältä: y= 0,8464x-0,0355 ja R^2 = 0,8886.
Annat liian vähän tietoja johtopäätösten tekemiseen. Kerro tarkemmin, mitä oikein yrität tehdä, niin pohditaan asiaa tarkemmin...Chivas Regal kirjoitti:Voidaanko tästä(kään) tehdä mitään sen pidemmälle meneviä johtopäätöksiä? Ajatuksena tosiaan oli, että voisin saada vasteille virhemarginaalin, mitä voisi sitten hyödyntää omissa vedoissa..
"Vasteiden" virhemarginaalista esitin erään näkemyksen yllä olevassa viestissäni.
ANOVA tarkoitta varianssianalyysia. Se siis viittaa kaikkiaan noihin muihin lukuihin. T-stat on t-testisuureen arvo, joka on yleensä tapana liittää tilastollisiin esityksiin, mutta p-arvo kertoo kuitenkin saman asian yksinkertaisemmassa muodossa: se ilmoittaa kunkin parametrin kohdalla, miten todennäköistä on saada näin paljon nollasta poikkeava arvo puhtaan sattuman kautta.Chivas Regal kirjoitti: Excelissähän on myös Data Analysis Tool Pack, jolla on mahdollista tehdä regressioanalyysejä.. Niinpä ajoinkin datan läpi ja sain ulos kaikennäköistä.. Ongelmana vaan on, että en oikein osaa tulkita noita lukuja, mitä sieltä ulos puskee.. On ANOVAA, residuaalia, t-Statia, P-valueta ja vaikka ja mitä..
Minikommentit
-
Chivas Regal
- Jäsen
- Viestit: 420
- Liittynyt: 06.03.2003, 14:51
- Pisteitä: 0
- Paikkakunta: Lahti
Re: Tilastomatematiikkaa rautalangaksi
Okei, yritän selventää..
Olen kerännyt vuosien varrella dataa eräästä jalkapalloliigasta. Olen laskenut siis joka otteluun ELO-luvut, joista olen saanut sekä koti- että vierajoukkueille "winning expectancy"-luvun, kuten varmaan ELO-lukuihin tutustuneet tietävätkin. Näitä We-lukuja olen sitten kerännyt ja laskenut miten eri We-luvuilla on toteutunut voitto-tasapeli-häviö -jakauma. Datassani esim We-luvulla (koti) 0,68 jakauma on 32-21-23. Koska eri We-lukuja on eri määrä, olen sitten laskenut jakauman prosentteina; tässä tapauksessa siis tuon We-luvun 0,68 jakauma on 42%-28%-30% (hieman pyöristettyinä).
Nyt olen siis vetäissyt scatteriin käppyrät siten, että x-akselilla ovat nuo We-luvut 0,00 - 1,00 ja y-akselille tulee sitten nuo toteutuneet jakaumat prosentteina. Tuostahan sitten tulee kiva pistejoukko, jonka läpi olen vetäissyt tuon trendlinen ja yritän nyt tässä arvailla, että kuinka hyvin tuo trendline antaa ennustetta jollekin valitulle We-luvulle..
Olen siis tulkinnut, että koska trendlinen R^2 -luku on kuitenkin lähellä 0,9, niin melko vahva korrelaatio olisi olemassa, ja siitä voisi jollain varmuudella arvailla tulevien pelien WDL-jakaumia.
Otetaan nyt vaikka tuo We-luku 0,68; toteutuma on siis tuo 42-28-30; lineaarinen trendline antaa 54-22-24 ja polynomi antaa 51-26-23...
Tämmöiseen yritän tätä siis käyttää.. toivottavasti selvensi..
epäilee avujaan,
jos koskaan peliin uskalla
ei täyttä panostaan
James Graham, Montrosen markiisi (1612-1650)
-
credit
- Jäsen
- Viestit: 5495
- Liittynyt: 02.08.2003, 00:47
-
Tuotto: +232.86 yks.
Palautus%: 104.64%
Panosten ka: 1.57 yks.
Vetoja: 3193
- Pisteitä: 4785
Re: Tilastomatematiikkaa rautalangaksi
Voisitko hieman täsmentää, mitä tarkoitat, kun sanot, että "y-akselille tulee sitten nuo toteutuneet jakaumat prosentteina"? Et nimittäin voi laittaa koko jakaumaa "y-akselille" eli selitettävän muuttujan paikalle. Jos oikein arvaan, sinulla on selitettävänä muuttujana joko kotivoiton tai tasapelin tn ja lopullinen päämääräsi on joko todistaa ELOn toimivuus/toimimattomuus tai laskea tasapelien tn:t eri we-luvuille. Osuinko oikeaan?Chivas Regal kirjoitti: Nyt olen siis vetäissyt scatteriin käppyrät siten, että x-akselilla ovat nuo We-luvut 0,00 - 1,00 ja y-akselille tulee sitten nuo toteutuneet jakaumat prosentteina.
Minikommentit
-
Chivas Regal
- Jäsen
- Viestit: 420
- Liittynyt: 06.03.2003, 14:51
- Pisteitä: 0
- Paikkakunta: Lahti
Re: Tilastomatematiikkaa rautalangaksi
Mulla on siis Excelissä sarakkeessa B nuo We-luvut.. käytän tätä saraketta kuvaajan x-akselina. Sarakkeessa C on kotivoittojen lukumäärä, sarakkeessa D on tasapelien lukumäärä ja sarakkeessa E on vierasvoittojen lukumäärä. Sarakkeessa F on summattu kotivoitot, tasurit ja vierasvoitot (toteutumien kokonaismäärä). Sarakkeisiin G, H & I on laskettu prosenttiosuudet kullekin tapahtumalle. Näitä sarakkeita (G,H&I) käytin sitten Scatterin y-akselilla. Sain siis oikeastaan kolme pistejoukkoa.. yhden kotivoitoille, yhden tasureille ja yhden vierasvoitoille.. niille sitten piirtelin nuo trendlinet.. nämä kaikki samassa kuvaajassa.
Voisihan nuo erotellakin kukin omiin kuvaajiinsa, jolloin olisi yksi kuvaaja kotivoitoille jne..
Muuten.. polynomifunktiota käytin trendlinenä juuri sen takia, että se näytti parhaiten sopivan noihin pistejoukkoihin..
Nyt jos osaisin, niin voisin kyllä laittaa tuon perusdatan tänne näkyviin.. mutta miten se tehdään.. kauniita kuvia olen täällä nähnyt esim. Mäenalan laittamana, mutta itse en (vielä) osaa..
epäilee avujaan,
jos koskaan peliin uskalla
ei täyttä panostaan
James Graham, Montrosen markiisi (1612-1650)
Minikommentit
-
Chivas Regal
- Jäsen
- Viestit: 420
- Liittynyt: 06.03.2003, 14:51
- Pisteitä: 0
- Paikkakunta: Lahti
Re: Tilastomatematiikkaa rautalangaksi
epäilee avujaan,
jos koskaan peliin uskalla
ei täyttä panostaan
James Graham, Montrosen markiisi (1612-1650)
Minikommentit
-
credit
- Jäsen
- Viestit: 5495
- Liittynyt: 02.08.2003, 00:47
-
Tuotto: +232.86 yks.
Palautus%: 104.64%
Panosten ka: 1.57 yks.
Vetoja: 3193
- Pisteitä: 4785
Re: Tilastomatematiikkaa rautalangaksi
Eli vähän niin kuin arvelinkin, sinulla on kolme eri regressiokäyrää (ja selitettävän muuttujan paikalla vuorollaan kotivoittojen, tasapelien ja vierasvoittojen suhteelliset osuudet). Sillä ovatko käyrät samassa kuvassa, ei ole suurta merkitystä.Chivas Regal kirjoitti:Yritetään...
Mulla on siis Excelissä sarakkeessa B nuo We-luvut.. käytän tätä saraketta kuvaajan x-akselina. Sarakkeessa C on kotivoittojen lukumäärä, sarakkeessa D on tasapelien lukumäärä ja sarakkeessa E on vierasvoittojen lukumäärä. Sarakkeessa F on summattu kotivoitot, tasurit ja vierasvoitot (toteutumien kokonaismäärä). Sarakkeisiin G, H & I on laskettu prosenttiosuudet kullekin tapahtumalle. Näitä sarakkeita (G,H&I) käytin sitten Scatterin y-akselilla. Sain siis oikeastaan kolme pistejoukkoa.. yhden kotivoitoille, yhden tasureille ja yhden vierasvoitoille.. niille sitten piirtelin nuo trendlinet.. nämä kaikki samassa kuvaajassa.
Voisihan nuo erotellakin kukin omiin kuvaajiinsa, jolloin olisi yksi kuvaaja kotivoitoille jne..
Samaa menetelmää käyttävät monet ihan pätevät tilastotieteilijätkin (tai oikeammin: tilastotiedettä soveltavat tutkijat). Usein toki tiedetään etukäteen, minkätyyppinen käppyrä pistejoukkoon tulisi (teorian perusteella) sovittaa, mutta toisinaan on pakko edetä kokeilemalla... Kannattaa kuitenkin muistaa, että kun pohjalla ei ole kunnon teoriaa, tuloksiin on aina suhtauduttava vielä normaaliakin varovaisemmin.Chivas Regal kirjoitti: Muuten.. polynomifunktiota käytin trendlinenä juuri sen takia, että se näytti parhaiten sopivan noihin pistejoukkoihin..
Miksi haluat käyttää "trendlinea" tn-arvioiden muodostamisessa etkä suoraan ELOa? Onko tämä jotain ELOn valkopesua? ELOhan se siellä taustalla joka tapauksessa on, koska we-luvut lasketaan ELO-lukujen perusteella.Chivas Regal kirjoitti: ... ja tavoitteenani olisi ymmärtää, millaisella tarkkuudella tuota trendlineä voi käyttää arvioitaessa kotivoittojen, tasurien ja vierasvoittojen todennäköisyyksiä, kun ottelun We-luku on tiedossa..
Minikommentit
-
Chivas Regal
- Jäsen
- Viestit: 420
- Liittynyt: 06.03.2003, 14:51
- Pisteitä: 0
- Paikkakunta: Lahti
Re: Tilastomatematiikkaa rautalangaksi
Olen vaan ajatellut asian siten, että ELO itsessään funkkaa paremmin kun etsitään vain voittajaa / häviäjää.. Futiksessa kun on tuo tasuri mukana, niin olen sen takia hieman muokannut omaa lähestymistapaani.. ei siinä mitään muuta syytä ole..
epäilee avujaan,
jos koskaan peliin uskalla
ei täyttä panostaan
James Graham, Montrosen markiisi (1612-1650)
Minikommentit
-
credit
- Jäsen
- Viestit: 5495
- Liittynyt: 02.08.2003, 00:47
-
Tuotto: +232.86 yks.
Palautus%: 104.64%
Panosten ka: 1.57 yks.
Vetoja: 3193
- Pisteitä: 4785
Re: Tilastomatematiikkaa rautalangaksi
Joo... oikeastaan tajusin, mitä yrität tehdä. Vähän vain piruilin.Chivas Regal kirjoitti:Ei ole ELON valkopesua..
Olen vaan ajatellut asian siten, että ELO itsessään funkkaa paremmin kun etsitään vain voittajaa / häviäjää.. Futiksessa kun on tuo tasuri mukana, niin olen sen takia hieman muokannut omaa lähestymistapaani.. ei siinä mitään muuta syytä ole..
Oletko ajatellut, ettei sinun tarvitse tehdä asioita noin monimutkaisesti? Sinun ei tarvitse laskea uutta arviota koti- ja vierasvoitolle trendlinen avulla. Riittää, kun arvioit, miten todennäköisesti ottelussa tulee tasapeli, ja vähennät tasapelin todennäköisyyden sopivassa suhteessa sekä koti- että vierasjoukkueen "winning expectancy" -luvusta.
Jos kummankin joukkueen we on 0,50 ja arvioit tasapelin tn:ksi 0,30 --> 1x2: 0,35 - 0,30 - 0,35.
Jos kotijoukkueen we on 0,60 ja arvioit tasapelin tn:ksi 0,30 --> 1x2: 0,42 - 0,30 - 0,28.
Jos kotijoukkueen we on 0,70 ja arvioit tasapelin tn:ksi 0,25 --> 1x2: 0,525 - 0,25 - 0,225.
Eli: kotijoukkueen we * (1 - tasapelin tn) = kotijoukkueen voiton tn.
Tasapelin tn:n arvioimiseen voit käyttää mm. piirtämääsi trendline-käyrää, kunhan muistat olla varovainen etenkin silloin, kun lähestyt pistejoukon laitoja (kun we on todella suuri tai todella pieni).
Minikommentit
-
Chivas Regal
- Jäsen
- Viestit: 420
- Liittynyt: 06.03.2003, 14:51
- Pisteitä: 0
- Paikkakunta: Lahti
Re: Tilastomatematiikkaa rautalangaksi
Makuasia, kumpaa tapaa nyt haluaa käyttää.. melko automaattisesti nuo Exceliin saa molemmat toimimaan..
Virhemarginaalin arvioinnin näkee sitten suoraan palautusprosentista varmaankin..
Anyways.. kiitos kaunis.. saatiin aikaiseksi pientä keskusteluntynkää kahdesta itseäni kiinnostavasta aiheesta.. ELO & todennäköisyydet
epäilee avujaan,
jos koskaan peliin uskalla
ei täyttä panostaan
James Graham, Montrosen markiisi (1612-1650)
Minikommentit