Ylikerroin.com
Suomen suurin vedonlyöntisivusto
Tänään on 23.02.2018, 03:25

Kaikki ajat ovat UTC + 2 tuntia



Aloita uusi ketju Vastaa viestiin  [ 12 viestiä ] 
Kirjoittaja Viesti
 Viestin otsikko: Virhemarginaalin laskeminen
ViestiLähetetty: 21.11.2012, 16:40 
Status: JäsenLiittynyt: 23.08.2012, 20:36Viestit: 152
Pisteitä: 55
Kassa: +55.63 yks. Palautus%: 104.54% Panosten ka: 4.03 yks. Vetoja: 304
J-Mad kirjoitti:
Hienoa työtä, kuten aina! Katson kuitenkin tarpeelliseksi huomauttaa, että parin-kolmensadan matsin otoskoko on varsin pieni; jos nyt väsyneenä laskin oikein, niin "virhemarginaali" (95% luottamusväli normaalijakauma-approksimaatiolla) esimerkiksi noille kotijoukkue-rivin luvuille on noin 5-6 prosenttiyksikköä kumpaankin suuntaan. Toki isommalla otoksella muodostuu jossain määrin ongelmaksi vanhan datan soveltuvuus tähän päivään, mutta olisi hyvin mielenkiintoista nähdä sama taulukko esimerkiksi viime työsulun jälkeisistä kausista, vuodesta 2005 lähtien.


Nyt, kun satuin paikalle niin pitää oikein kysyä, kun olen joskus tätä miettinyt, että miten virhemarginaali lasketaan? Vähän nolottaa kysyä, koska kyllä tämä joskus aikoinaan lukiossa käytiin läpi, mutta siitä nyt on jo vuosia, niin päässyt unohtumaan, kun ei ole tarvinnut laskea sen jälkeen.

Otetaan nyt kapulaesimerkkinä vaikka niin, että minulla on 8 000 pelin tilastot kerättynä. Näistä peleistä 2 000:ssa on ollut tilanne, missä koti- ja vierasjoukkue ovat molemmat pelanneet edellisenä päivänä. Miten lasken virhemarginaalin tästä 2 000 pelin jakaumasta verrattuna kaikkiin 8 000 peliin? Sovitaan, että 8 000 pelin W/D/L-jakauma on 41-22-37 ja 2 000 pelin, missä molemmat joukkuuet ovat pelanneet edellisenä päivänä, on 44-21-34.
0

_________________
"I believe that banking institutions are more dangerous to our liberties than standing armies" – Thomas Jefferson
Ylös
  Profiili Seuranta
 
23.11.2012 02:16 <moderator> Aihe siirretty omaan ketjuun
 Viestin otsikko: Re: Excel-säätöketju
ViestiLähetetty: 21.11.2012, 17:00 
Avatar
Status: JäsenLiittynyt: 18.01.2011, 19:17Viestit: 1120Paikkakunta: Kamppi
Pisteitä: 3408
David Ville kirjoitti:
Nyt, kun satuin paikalle niin pitää oikein kysyä, kun olen joskus tätä miettinyt, että miten virhemarginaali lasketaan? Vähän nolottaa kysyä, koska kyllä tämä joskus aikoinaan lukiossa käytiin läpi, mutta siitä nyt on jo vuosia, niin päässyt unohtumaan, kun ei ole tarvinnut laskea sen jälkeen.

Otetaan nyt kapulaesimerkkinä vaikka niin, että minulla on 8 000 pelin tilastot kerättynä. Näistä peleistä 2 000:ssa on ollut tilanne, missä koti- ja vierasjoukkue ovat molemmat pelanneet edellisenä päivänä. Miten lasken virhemarginaalin tästä 2 000 pelin jakaumasta verrattuna kaikkiin 8 000 peliin? Sovitaan, että 8 000 pelin W/D/L-jakauma on 41-22-37 ja 2 000 pelin, missä molemmat joukkuuet ovat pelanneet edellisenä päivänä, on 44-21-34.

Otetaan tässä esimerkiksi tapaus
- molemmilla peli edellisenä päivänä

Otoskoko n: 2000
Kotivoiton prosenttiosuus p: 44%

95%:n luottamustasolla virhemarginaali = 1.96 x SQRT(p x (1-p)/n) = 1.96 x SQRT(0.44 x 0.56 / 2000) = 0.022 (=2.2%)

Merkitys: 95%:n todennäköisyydellä (koko populaatiossa) kotivoiton todennäköisyys on välillä 41.8 - 46.2 prosenttia (44 ± 2.2).

Edit: koko populaatio = kaikki ne ottelut, joissa molemmilla peli edellisenä päivänä, 2000 ottelua on otos näistä peleistä.
2
Ylös
  Profiili
 
21.11.2012 17:21 <David Ville> Kiitos!
 Viestin otsikko: Re: Excel-säätöketju
ViestiLähetetty: 22.11.2012, 00:41 
Status: JäsenLiittynyt: 01.08.2003, 23:47Viestit: 5147
Pisteitä: 3877
Kassa: +205.69 yks. Palautus%: 104.37% Panosten ka: 1.57 yks. Vetoja: 3002
S.Mäenala kirjoitti:
Otetaan tässä esimerkiksi tapaus
- molemmilla peli edellisenä päivänä

Otoskoko n: 2000
Kotivoiton prosenttiosuus p: 44%

95%:n luottamustasolla virhemarginaali = 1.96 x SQRT(p x (1-p)/n) = 1.96 x SQRT(0.44 x 0.56 / 2000) = 0.022 (=2.2%)

Merkitys: 95%:n todennäköisyydellä (koko populaatiossa) kotivoiton todennäköisyys on välillä 41.8 - 46.2 prosenttia (44 ± 2.2).

Edit: koko populaatio = kaikki ne ottelut, joissa molemmilla peli edellisenä päivänä, 2000 ottelua on otos näistä peleistä.

Tässä kyllä käytetään luottamusväliä (= virhemarginaalia) sellaiseen tarkoitukseen, johon se ei oikein sovellu, ja laskelmat menevät pieleen jo alkumetreillä, kun kotivoiton tn:stä yksittäisessä ottelussa tehdään keskihajonnan laskemiseksi oletus, jollaista ei oikeastaan voida tehdä.

Se, että otoksessa, on ollut 44 prosenttia kotivoittoja, ei tarkoita sitä, että kotivoiton tn kaikissa otteluissa olisi ollut 44 prosenttia. Ja koska luottamusvälin määrittäminen perustuu siihen, että kotivoittojen suhteellisen osuuden keskihajonta voidaan laskea siitä oletuksesta, että yksittäisessä ottelussa kotivoiton tn on aina 44 prosenttia, luottamusvälin laskemiselta putoaa pohja pois ... Itse asiassa luottamusvälin laskeminen on tässä tapauksessa hullunkurista, koska luottamusväli lasketaan, jotta saataisiin jotain tietoa kotivoiton tn:stä, mutta oletuksena luottamusvälin laskemiselle on se, että kyseinen luku on jo tiedossa ...

Lisäksi tulkinta siitä, miten laskettu luottamusväli voidaan yleistää koskemaan koko populaatiota, on hieman pielessä. Frekventistiset tilastotieteiljät kutsuvat sitä "naiiviksi tulkinnaksi".
1
Ylös
  Profiili Seuranta
 
 Viestin otsikko: Re: Excel-säätöketju
ViestiLähetetty: 22.11.2012, 01:23 
Avatar
Status: JäsenLiittynyt: 18.01.2011, 19:17Viestit: 1120Paikkakunta: Kamppi
Pisteitä: 3408
credit kirjoitti:
Tässä kyllä käytetään luottamusväliä (= virhemarginaalia) sellaiseen tarkoitukseen, johon se ei oikein sovellu, ja laskelmat menevät pieleen jo alkumetreillä, kun kotivoiton tn:stä yksittäisessä ottelussa tehdään keskihajonnan laskemiseksi oletus, jollaista ei oikeastaan voida tehdä.

Se, että otoksessa, on ollut 44 prosenttia kotivoittoja, ei tarkoita sitä, että kotivoiton tn kaikissa otteluissa olisi ollut 44 prosenttia. Ja koska luottamusvälin määrittäminen perustuu siihen, että kotivoittojen suhteellisen osuuden keskihajonta voidaan laskea siitä oletuksesta, että yksittäisessä ottelussa kotivoiton tn on aina 44 prosenttia, luottamusvälin laskemiselta putoaa pohja pois ... Itse asiassa luottamusvälin laskeminen on tässä tapauksessa hullunkurista, koska luottamusväli lasketaan, jotta saataisiin jotain tietoa kotivoiton tn:stä, mutta oletuksena luottamusvälin laskemiselle on se, että kyseinen luku on jo tiedossa ...

Lisäksi tulkinta siitä, miten laskettu luottamusväli voidaan yleistää koskemaan koko populaatiota, on hieman pielessä. Frekventistiset tilastotieteiljät kutsuvat sitä "naiiviksi tulkinnaksi".

Mitä ihmettä credit? :o

Jos tutkimuksessa 2000 kansalaisen otoksesta saadaan tulokseksi että 15% suomalaisista on persuja, niin ei se tietenkään tarkoita että se on totta jokaisen suomalaisen kohdalla. Joissakin kansalaisissa on 'persuutta' täydet 100%, mutta jossakin umpikommunistissa tai poroporvarissa sitä varmaankin on noin 0%.
Tilanne on täsmälleen sama jalkapallo-ottelussa, jossakin ottelussa kotivoiton todennäköisyys on lähes 100% ja jossakin toisessa lähellä nollaa. Keskimäärin se tässä otoksessa on 44%. Keskimäärin suomalaisessa on 15% persuutta.

Jos jalkapallo-otteluilta kysytään, niin 44% 'heistä' vastaa kotivoitto!

Yhtä hyvin kuin kannatustutkimuksessa voidaan laskea prosenttiluvun virhemarginaali, se voidaan laskea myös kotivoittotutkimuksessa!

Eikä tässä laskussa mitään keskihajontaa ole käytetty tai tarvittu vaan laskut on tehty normaaliin tapaan prosenttiluvun keskivirheeseen perustuen.

Otin Sinulle opintomateriaaliksi netistä ensinnä käteen sattuneen Tampereen Yliopiston sivuilta tehdyn kaappauksen:

Luottamusvälin laskeminen
0
Ylös
  Profiili
 
 Viestin otsikko: Re: Excel-säätöketju
ViestiLähetetty: 22.11.2012, 02:42 
Status: JäsenLiittynyt: 01.08.2003, 23:47Viestit: 5147
Pisteitä: 3877
Kassa: +205.69 yks. Palautus%: 104.37% Panosten ka: 1.57 yks. Vetoja: 3002
Minusta sinulla (ja miksei myös jossain määrin minulla) menevät nyt suhteelliset osuudet ja todennäköisyydet hieman sekaisin. Jos haluat tehdä perusjoukkoa koskevia päätelmiä tuon aiemmin määritellyn otoksen perusteella, et voi todeta näin:
Lainaa:
Merkitys: 95%:n todennäköisyydellä (koko populaatiossa) kotivoiton todennäköisyys on välillä 41.8 - 46.2 prosenttia (44 ± 2.2).


Yritän avata asiaa esimerkin kautta:

Periaatteessa on mahdollista, että havaitaan samanlainen otos kahdessa eri tilanteessa (ja äärettömän monessa muussa tilanteessa näiden ääripäiden väliltä):

A) 880 ottelua päättyy täysin varmasti kotivoittoon (= tn 100 %) ja 1120 ottelua täysin varmasti johonkin muuhun tulokseen

B) 2000 ottelua päättyy 44 %:n tn:llä kotivoittoon.

Kummassakin tapauksessa on mahdollista (ja ensin mainitussa täysin varmaa), että otoksessa on 880 kotivoittoon päättynyttä ottelua. Sovellettaessa luottamusvälin laskukaavaa saadaan kummassakin tapauksessa määritettyä identtinen luottamusväli kotivoittojen suhteelliselle osuudelle. Se ei kuitenkaan vastaa kotivoiton todennäköisyyttä yksittäisen ottelun kohdalla, eikä lasketun luottamusvälin perusteella ole oikein väittää, että kotivoiton todennäköisyys perusjoukossa ylipäätään olisi jollain välillä.

S.Mäenala kirjoitti:
Yhtä hyvin kuin kannatustutkimuksessa voidaan laskea prosenttiluvun virhemarginaali, se voidaan laskea myös kotivoittotutkimuksessa!

Tässä tulee tämä sekaannus taas esille: ensimmäisessä tapauksessa prosenttiluvun ajatellaan kuvaavan suhteellista osuutta perusjoukosta, toisessa taas pikemminkin konkreettista todennäköisyyttä keskimääräisessä/yksittäisessä(?) ottelussa (tai ainakin sellaisessa tarkoituksessa olet sitä mielestäni käyttänyt), vaikka todellisuudessa molemmissa tapauksissa voidaan tehdä päätelmiä vain suhteellisista osuuksista. Mielestäni tuosta yllä annetusta salibandydatasta ei mitenkään voi tehdä niin voimakkaita perusjoukkoa koskevia päätelmiä kuin sinä olet tehnyt.
1
Ylös
  Profiili Seuranta
 
 Viestin otsikko: Re: Excel-säätöketju
ViestiLähetetty: 22.11.2012, 11:39 
Avatar
Status: JäsenLiittynyt: 18.01.2011, 19:17Viestit: 1120Paikkakunta: Kamppi
Pisteitä: 3408
Pitäisi varmaan provosoitua kun näin kovasti provosoidaan..

Vahva kohteliaisuuteni kuitenkin estää minua kutsumasta tätä inttämistä sillä nimellä millä sitä pitäisi kutsua. :)

Jos
- 2000 suuruisesta otoksesta löytyy 880 kotivoittoa tai
- 2000 suuruisesta otoksesta löytyy 300 perussuomalaista
niin
- ei tarvitse olla ruudinkeksijä ymmärtääkseen että nämä ovat laskennallisesti täysin analogisia tilanteita.

Tätä ei voi vääntää rautalangasta, tämä on rautalankaa!

Tässä ei ole mitään tulkinnanvaraisuutta tai epäselvyyttä.
Jos nämä yksinkertaiset perusasiat eivät jollekin avaudu, pitäköön omat jorinansa.

Sanotaan että every picture tells a story.. ja niinhän se on.
Melkeinpä toivoisin että en ymmärtäisi mistä nämä omituiset keitokset oikein kumpuavat.
Valitettavasti ymmärrän.
3
Ylös
  Profiili
 
 Viestin otsikko: Re: Excel-säätöketju
ViestiLähetetty: 22.11.2012, 12:23 
Status: JäsenLiittynyt: 25.09.2004, 11:21Viestit: 114
Pisteitä: 89
Tilanteet eivät ole analogisia. 2000 kokoinen otos äänestäjistä edustaa laajempaa populaatiota kuin 2000. 2000 kokoinen otos populaatiosta, johon kuuluu 2000 tietyt ehdot täyttävää ottelua ei edusta laajempaa populaatiota. Jälkimmäisessä tapauksessa käytetään luottamusväliä sellaiseen tarkoitukseen, johon se ei oikein sovellu.
3
Ylös
  Profiili
 
 Viestin otsikko: Re: Excel-säätöketju
ViestiLähetetty: 22.11.2012, 12:30 
Status: JäsenLiittynyt: 01.08.2003, 23:47Viestit: 5147
Pisteitä: 3877
Kassa: +205.69 yks. Palautus%: 104.37% Panosten ka: 1.57 yks. Vetoja: 3002
S.Mäenala kirjoitti:
Jos
- 2000 suuruisesta otoksesta löytyy 880 kotivoittoa tai
- 2000 suuruisesta otoksesta löytyy 300 perussuomalaista
niin
- ei tarvitse olla ruudinkeksijä ymmärtääkseen että nämä ovat laskennallisesti täysin analogisia tilanteita.

Ne ovat jossain määrin analogisia, jos haluataan laskea luottamusväli suhteellisille osuuksille, mutta sinä puhuit aimmissa kirjoituksissasi todennäköisyyksistä. Tämä harhautti minut luulemaan, että olet ajattelussasi mennyt harhaan kohdassa, jossa et ollutkaan mennyt harhaan. Nyt en enää osaa sanoa, kuinka pahasti väärin ajattelet vai käytätkö vain käsitteitä huolimattomasti (ilmeisesti jonkin verran molempia).

Kun olen nyt jonkin aikaa tätä asetelmaa pohtinut, olen päätynyt siihen, että oikeastaan tässä pitäisi palata nyt vähintään kaksi askelta taaksepäin ja miettiä seuraavia perustavanlaatuisia kysymyksiä:

- Mitä tarkkaan ottaen halutaan saada selville?
- Miksi pitäisi määrittää luottamusväli; mitä hyötyä siitä tässä tapauksessa on?
- Mikä on perusjoukko ja mikä on otos (toisaalta salibandydatan ja toisaalta kannatustutkimuksen kohdalla)?
- Tutkitaanko koko perusjoukkoa vai vain otosta?
1
Ylös
  Profiili Seuranta
 
 Viestin otsikko: Re: Excel-säätöketju
ViestiLähetetty: 22.11.2012, 12:33 
Status: JäsenLiittynyt: 01.08.2003, 23:47Viestit: 5147
Pisteitä: 3877
Kassa: +205.69 yks. Palautus%: 104.37% Panosten ka: 1.57 yks. Vetoja: 3002
5q00q4q kirjoitti:
Tilanteet eivät ole analogisia. 2000 kokoinen otos äänestäjistä edustaa laajempaa populaatiota kuin 2000. 2000 kokoinen otos populaatiosta, johon kuuluu 2000 tietyt ehdot täyttävää ottelua ei edusta laajempaa populaatiota. Jälkimmäisessä tapauksessa käytetään luottamusväliä sellaiseen tarkoitukseen, johon se ei oikein sovellu.

Tämä on yksi pointti, jota yllä olevassa viestissäni yritän tuoda esille. Luottamusväliä käytetään arvioitaessa estimaatin luotettavuutta. Mutta luotettavuutta on tarpeen arvioida vain silloin, kun otetaan otoksia jostain suuremmasta populaatiosta, kuten kannatustutkimuksissa tehdään. Salibandydatan kohdalla ei sen sijaan ole lainkaan selvää, mikä on perusjoukko (eli "koko populaatio") ja mikä on otos. Aivan hyvin voidaan ajatella, että jos meillä on dataa kaikista kausilla xxxx-yyyy pelatuista otteluista, meillä on dataa koko populaatiosta.

Mukavaa, että joku osaa kiteyttää oleelliset asiat näin ytimekkäästi. :wink:
2
Ylös
  Profiili Seuranta
 
 Viestin otsikko: Re: Excel-säätöketju
ViestiLähetetty: 22.11.2012, 12:59 
Status: JäsenLiittynyt: 09.05.2006, 11:00Viestit: 2240Paikkakunta: Helsinki 00140
Pisteitä: 3813
Kassa: +24.78 yks. Palautus%: 100.18% Panosten ka: 10.60 yks. Vetoja: 1311
Mä veikkaan, että Mäenala nousee vielä. Tuomari ehti laskee S.M.:lle vasta viisi sekuntia.

Teet ja paahtoleivät esille ja odottelee seuraavaa erää. :peukku:
1
Ylös
  Profiili Seuranta
 
22.11.2012 13:03 <nuhapumppu> Mäenalan Sepi, excelmaailman chuck norris
22.11.2012 14:43 <Neo> Näinköhän nousee, taitaa jäädä M.ala köysiin nyt :/
22.11.2012 14:43 <Neo> Tai sitten koodaa uutta supr-excel-softaa sormet savuten!
 Viestin otsikko: Re: Excel-säätöketju
ViestiLähetetty: 23.11.2012, 00:09 
Avatar
Status: JäsenLiittynyt: 18.01.2011, 19:17Viestit: 1120Paikkakunta: Kamppi
Pisteitä: 3408
Minulla ei yleensä ole tapana näitä self-made -matemaatikkojen toilailuita kommentoida. Tässä on lisäksi liikkeellä porukkaa, joka "on ottanut osumaa" minun posteistani viimeisten parin vuoden aikana. Heitä eivät tosiasiat liiemmin kiinnosta vaan pääpontimena on S.Mäenalan lyttääminen.
Niinkuin olen ennenkin todennut, tämänkaltaisessa väittelyssä ei voi voittaa, siinä tahrii vain vaatteensa.

Tuo minun esittämäni laskentamalli on täysin pätevää otoslaskentaa. Esitetyllä tavalla sitä käytetään päivittäin tuhansissa yhteyksissä kouluissa, tutkimuksessa, yrityksissä, jne.

Ainoatakaan järkevää argumenttia sitä vastaan ei tuossa eo. "keskustelussa" esitetty. Pääosin kommentit herättivät vain myötätunnon tunteita.

Ainoa, jota nyt lainkaan tekee mieli kommentoida, on seuraava nimimerkin 5q00q4q kommentti. Sekin perustuu vain yksinkertaiseen väärinkäsitykseen.

5q00q4q kirjoitti:
Tilanteet eivät ole analogisia. 2000 kokoinen otos äänestäjistä edustaa laajempaa populaatiota kuin 2000. 2000 kokoinen otos populaatiosta, johon kuuluu 2000 tietyt ehdot täyttävää ottelua ei edusta laajempaa populaatiota. Jälkimmäisessä tapauksessa käytetään luottamusväliä sellaiseen tarkoitukseen, johon se ei oikein sovellu.

- David Villellä oli 8000 ottelun tilasto. Se ei ole koko populaatio eli kaikki ottelut. Se on ilmeisesti 8000 viimeisintä ottelua.
- Hän löysi näistä 8000 ottelusta 2000 sellaista ottelua, joissa molemmilla joukkueilla oli peli edellisenä päivänä. Se ei ole tämänkaltaisten otteluiden koko populaatio, vaan se on otos kaikista niistä otteluista, joissa joukkueilla on ollut peli edellisenä päivänä.

Kerrataan vielä:
- koko populaatio = kaikki ne ottelut, joissa molemmilla joukkueilla on ollut peli edellisenä päivänä (historian hämäriin alkuhetkiin asti..).
- otos = 2000 tuosta populaatiosta poimittua ottelua.

Juuri niinkuin minä siellä alkuperäisessä postissanikin kirjoitin. Ei pitäisi olla monimutkaista.

Ym. otokselle voidaan täysin pätevästi laskea virhemarginaali.
Saatu tulos voidaan täysin pätevästi yleistää ym. populaatioon.

Tästä ei tämän enempää. Herrat voivat täysin vapaasti (modejenkaan häiritsemättä) jatkaa kuran roiskimistaan.
4
Ylös
  Profiili
 
 Viestin otsikko: Re: Excel-säätöketju
ViestiLähetetty: 23.11.2012, 01:13 
Status: JäsenLiittynyt: 01.08.2003, 23:47Viestit: 5147
Pisteitä: 3877
Kassa: +205.69 yks. Palautus%: 104.37% Panosten ka: 1.57 yks. Vetoja: 3002
Ihmeellistä kiukuttelua S. Mäenalalta. Ajattelin esittää hänelle muutamia kysymyksiä koskien mm. sitä, mikä hänen mielestään on se populaatioparametri, jolle hän tässä tapauksessa haluaa määrittää luottamusvälin, mutta se on kai turhaa, kun aiemmatkaan kommentit eivät ole saamassa kunnon vastausta. :(
9
Ylös
  Profiili Seuranta
 
Näytä viestit ajalta:  Järjestä  
Aloita uusi ketju Vastaa viestiin  [ 12 viestiä ] 

Kaikki ajat ovat UTC + 2 tuntia


Paikallaolijat

Käyttäjiä lukemassa tätä aluetta: Ei rekisteröityneitä käyttäjiä ja 5 vierailijaa


Et voi kirjoittaa uusia viestejä
Et voi vastata viestiketjuihin
Et voi muokata omia viestejäsi
Et voi poistaa omia viestejäsi
Et voi lähettää liitetiedostoja.

Hyppää:  


Powered by phpBB © 2008 phpBB Group | Käännös, Lurttinen, www.phpbbsuomi.com
subSilver+ theme by Canver Software, sponsor Sanal Modifiye