Sivu 1/1

Tilastoprojekti

Lähetetty:
Kirjoittaja Spurs77
Heittelen tänne ajatusta ilmoille, josko joku tästä innostuisi. Tai saisin ainakin kehitysideoita nykyiseen ajatelmaan.

Aloitin nyt projektin, jonka tarkoituksena olisi kerätä OPTA:n relevanttia tilastodataa vedonlyönnin avuksi. Taustana tähän sen verran, että nykyisellään käytän laskennassa apuna vain helposti saatavilla (ladattavissa) olevaa dataa, eli käytännössä kulmat, laukaukset ja laukaukset maalia kohti. Viime vuosina saatavilla olevan datan määrä jalkapallossa on kasvanut räjähdysmäisesti ja tämä tulee väistämättä koventamaan markkinaa entisestään. Isot pojat ostavat datan suoraan OPTA:lta ja vähän köyhemmät, mutta resursseja omaavat keräävät ne manuaalisesti. Tällä hetkellä on siten vähän tällainen "mopolla moottoritiellä" -fiilis tämän datan kanssa. Nähdäkseni tässä kehityksessä olisi hyvin nopeasti pysyttävä mukana tai kaaduttava.

Jopa noilla ym. tilastoilla (kulmat, laukaukset ja laukaukset maalia kohti) pystytään ennustamaan tulevia suorituksia tarkemmin kuin pelkällä tulosdatalla, joten yksityiskohtaisemmalla datalla pitäisi saada aikaan isoa parannusta todennäköisyysarvioihin.

Aloin nyt keräämään dataa Valioliigasta kausilta 2010/2011 - 2014/2015 seuraavilla spekseillä:

* Joukkueet
* Lopputulos
* Pallonhallinta%
* Syöttöyritykset
* Onnistuneet syötöt
* Syöttöyritykset hyökkäyskolmanneksella
* Onnistuneet syötöt hyökkäyskolmanneksella
* Kulmapotkut
* Rikkeet
* Keltaiset kortit
* Punaiset kortit
* Keskitykset
* Maalit sektoreittain
* Maalit päällä sektoreittain
* Laukaukset maalia kohti sektoreittain
* Laukaukset maalia kohti päällä sektoreittain
* Ohilaukaukset sektoreittain
* Ohilaukaukset päällä sektoreittain
* Blokatut laukaukset sektoreittain
* Blokatut laukaukset päällä sektoreittain
* Omat maalit
* Rangaistuspotkut
* Onnistuneet rangaistuspotkut

Kaikki ym. data löytyy FourForTwo:n Statszonesta ja Whoscoredista.

Tässä laukaukset sektoreittain on omassa tilastoinnissani jaoteltu neljään sektoriin. 1. maalivahdin alueen sisäpuolelta, 2. maalivahdinalueen ja kuudentoistarajan välistä keskeltä, 3. kuudentoista-alueen reunoilta ja 4. kuudentoista-alueen ulkopuolelta. Varsinkin tuo 4. sektori voisi olla jaoteltu tarkemminkin, mutta käytännön syistä näin. Laukaukset sektoreittain haen Whoscored:sta (esim. http://www.whoscored.com/Matches/411020/Live ja sieltä "Chalkboard". Tuosta on helppo etsiä laukaukset näiden 4. sektorin mukaan. Tarkemmalla tasolla menee arpomiseksi. Laukaukset päällä on eroteltu siksi, että ne ovat vähempiarvoisia (johtavat maaliin harvemmin) kuin laukaukset jalalla.

Tässähän nyt on ongelmana se, että tuo datan kerääminen käsin on valtavan työlästä. Laskeskelin karkeasti, että tämän viiden kauden datan kerääminen vie ~ yhden henkilötyökuukauden, joten päivätyön ohella tämän valmistuminen on nyt aikataulutettu loppukeväälle. Ja mikäli sarjoja haluaa useampia, työmäärä moninkertaistuu.

Kyselen siis nyt kahta asiaa:

1. Löytyykö jotain kiinnostunutta jakamaan tätä työtaakkaa ja keräämään yhdessä dataa. Dataa en halua luonnollisesti mihinkään yleiseen jakoon, mutta jokainen projektiin osallistuva saisi valmiin datapaketin käyttöönsä. Jos kasaan saadaan isompi porukka ja kerättyä data useammista sarjoista, voitaisiin nämä laittaa jonnekin Dropboksiin tms. salasanan taakse ja datan päivityksetkin voitaisiin jatkossa jakaa. Datan voi sitten jokainen käyttää hyväkseen parhaaksi katsomallaan tavalla.

2. Kehitysideoita? Puuttuuko yllä olevasta jotain relevanttia dataa / löytyykö jotain muuta huomioon otettavaa?

Re: Tilastoprojekti

Lähetetty:
Kirjoittaja lammpa-1
itse meinasin kasata VBA:lla web scraperin, joka hakee exceliin automaattisesti whoscoredista datat (siitä on jo raakaversio valmiinakin), mutta kun edellinen projekti ei ole vielä täysin kasassa, niin scraperin viimeistelyaikataulusta en tiedä yhtään...

Whoscoredissa ongelma on tietty, että osa datasta on kuvina, joten niitä on äärimmäisen hankala automatisoidusti hakea. Ajattelin ensin tehdä sellaisen version, joka hakee helposti imuroitavan datan ja katsoa saako siitä mitään aikaiseksi... mutta juu aikataulu toistaiseksi auki, enkä muutenkaan halua sitoutua mihinkään sellaiseen, että toisten hommat on mun hommista kiinni, koska teen näitä just silloin kun sattuu huvittamaan :oops:

Ei muuta kuin Spurs osallistumaan tuohon SM:n VBA-kurssiin ja sitä kautta vähemmällä vaivalla datat koneeseen 8--)

Re: Tilastoprojekti

Lähetetty:
Kirjoittaja ptets
Vähän samoilla linjoilla että perusdata kannattaisi hakea ohjelmallisesti ja nuo laukauspaikat/sektorit sitten varmaan manuaalisesti. Football-data.co.uk sivullahan on jonkinverran dataa tarjolla Exceliin kerättynä ihan ilmaiseksi joten ohjelmanpätkän ei periaatteessa tarvitsisi kuin osa noista whoscoredin datoista.

http://www.football-data.co.uk/

Re: Tilastoprojekti

Lähetetty:
Kirjoittaja Spurs77
lammpa-1 kirjoitti:Ei muuta kuin Spurs osallistumaan tuohon SM:n VBA-kurssiin ja sitä kautta vähemmällä vaivalla datat koneeseen 8--)
Joo, kyllä nuo koodauksen perusteet täytyy opetella, kunhan aikaa riittää. Helpottaisi montaa asiaa...
ptets kirjoitti:Vähän samoilla linjoilla että perusdata kannattaisi hakea ohjelmallisesti ja nuo laukauspaikat/sektorit sitten varmaan manuaalisesti. Football-data.co.uk sivullahan on jonkinverran dataa tarjolla Exceliin kerättynä ihan ilmaiseksi joten ohjelmanpätkän ei periaatteessa tarvitsisi kuin osa noista whoscoredin datoista.

http://www.football-data.co.uk/
Tällä hetkellä juu käytössä nuo football-datan tilastot. Mutta eipä tuosta oikein irtoa kuin ottelutulokset, kulmat, rikkeet ja kortit. Mutta koodaustaidon puutteessa muu data menee manuaalisesti :(

Näitä käyttäessä muuten kannattaa olla tarkkana. Ovat muuttaneet esim. laukaisutilastoja (ainakin Valioliigassa ja Champioshipissa) ilmeisesti siten, että nykyään (viimeiset pari kautta) laukauksiin tulevat mukaan myös blokatut vedot, kun aiemmin tuli vain maalia kohti ja ohilaukaukset. Aiemmin käyttivät Sportinglifen tilastoja, nykyään tulevat jostain muualta. Nyt pari kautta olen tästä syystä kerännyt laukaisudatan käsin, kun eivät ole oikein vertailukelpoisia.

Re: Tilastoprojekti

Lähetetty:
Kirjoittaja lammpa-1
Spurs77 kirjoitti:Näitä käyttäessä muuten kannattaa olla tarkkana. Ovat muuttaneet esim. laukaisutilastoja (ainakin Valioliigassa ja Champioshipissa) ilmeisesti siten, että nykyään (viimeiset pari kautta) laukauksiin tulevat mukaan myös blokatut vedot, kun aiemmin tuli vain maalia kohti ja ohilaukaukset. Aiemmin käyttivät Sportinglifen tilastoja, nykyään tulevat jostain muualta. Nyt pari kautta olen tästä syystä kerännyt laukaisudatan käsin, kun eivät ole oikein vertailukelpoisia.
Tätä juuri tarkoitin, kun kirjoitin kommentiksi, että nuo tiedot ovat skeidaa... tällaiset temput tekevät datan käytännössä käyttökelvottomaksi...

Re: Tilastoprojekti

Lähetetty:
Kirjoittaja mutanen_aapo
Spurs77, mitä kaikkea sinulla olisi tuolla datalla tarkoitus tehdä? Jälkiarviot peleistä mahdollisimman tarkoiksi?

Re: Tilastoprojekti

Lähetetty:
Kirjoittaja Spurs77
mutanen_aapo kirjoitti:Spurs77, mitä kaikkea sinulla olisi tuolla datalla tarkoitus tehdä? Jälkiarviot peleistä mahdollisimman tarkoiksi?
Päätarkoituksena olisi saada rankingmuutokset mahdollisimman tarkoiksi. Nykyiselläänkin rankingit muuttuvat automaattisesti perustuen vastustajan tasoon, koti-/vieras-asetelmaan, ottelutulokseen ja ottelutilastoihin. Tämä rankingmuutos on pyritty mallintamaan tutkimalla, miten menneet suoritukset ennustavat tulevaa menestystä, eli miten vahva vaikutus yhdellä ottelulla rankingiin on.

Tarkemmalla datalla uskon pääseväni tuossa huomattavasti parempaan tarkkuuteen, jolloin alkurankin paino pienenee ja rankingit muuttuvat isommalla vauhdilla keskimäärin oikeampaan suuntaan.

Eli periaatteessa kyllä, kyse on ottelusuorituksen jälkianalyysistä.

Samalla olisi tarkoitus rakentaa systeemi ainakin kulmavetoihin, kun nopeasti löysin tekijät, jotka isosti kulmamääriin vaikuttavat. Siitä kyllä tiedä, millainen tuo markkina on tai pystyykö vähänkään paremmin osuessa sinne enää mitään pelaamaan. Mutta pienellä vaivalla tuo on tehty.