Tilastoprojekti
Lähetetty:
Heittelen tänne ajatusta ilmoille, josko joku tästä innostuisi. Tai saisin ainakin kehitysideoita nykyiseen ajatelmaan.
Aloitin nyt projektin, jonka tarkoituksena olisi kerätä OPTA:n relevanttia tilastodataa vedonlyönnin avuksi. Taustana tähän sen verran, että nykyisellään käytän laskennassa apuna vain helposti saatavilla (ladattavissa) olevaa dataa, eli käytännössä kulmat, laukaukset ja laukaukset maalia kohti. Viime vuosina saatavilla olevan datan määrä jalkapallossa on kasvanut räjähdysmäisesti ja tämä tulee väistämättä koventamaan markkinaa entisestään. Isot pojat ostavat datan suoraan OPTA:lta ja vähän köyhemmät, mutta resursseja omaavat keräävät ne manuaalisesti. Tällä hetkellä on siten vähän tällainen "mopolla moottoritiellä" -fiilis tämän datan kanssa. Nähdäkseni tässä kehityksessä olisi hyvin nopeasti pysyttävä mukana tai kaaduttava.
Jopa noilla ym. tilastoilla (kulmat, laukaukset ja laukaukset maalia kohti) pystytään ennustamaan tulevia suorituksia tarkemmin kuin pelkällä tulosdatalla, joten yksityiskohtaisemmalla datalla pitäisi saada aikaan isoa parannusta todennäköisyysarvioihin.
Aloin nyt keräämään dataa Valioliigasta kausilta 2010/2011 - 2014/2015 seuraavilla spekseillä:
* Joukkueet
* Lopputulos
* Pallonhallinta%
* Syöttöyritykset
* Onnistuneet syötöt
* Syöttöyritykset hyökkäyskolmanneksella
* Onnistuneet syötöt hyökkäyskolmanneksella
* Kulmapotkut
* Rikkeet
* Keltaiset kortit
* Punaiset kortit
* Keskitykset
* Maalit sektoreittain
* Maalit päällä sektoreittain
* Laukaukset maalia kohti sektoreittain
* Laukaukset maalia kohti päällä sektoreittain
* Ohilaukaukset sektoreittain
* Ohilaukaukset päällä sektoreittain
* Blokatut laukaukset sektoreittain
* Blokatut laukaukset päällä sektoreittain
* Omat maalit
* Rangaistuspotkut
* Onnistuneet rangaistuspotkut
Kaikki ym. data löytyy FourForTwo:n Statszonesta ja Whoscoredista.
Tässä laukaukset sektoreittain on omassa tilastoinnissani jaoteltu neljään sektoriin. 1. maalivahdin alueen sisäpuolelta, 2. maalivahdinalueen ja kuudentoistarajan välistä keskeltä, 3. kuudentoista-alueen reunoilta ja 4. kuudentoista-alueen ulkopuolelta. Varsinkin tuo 4. sektori voisi olla jaoteltu tarkemminkin, mutta käytännön syistä näin. Laukaukset sektoreittain haen Whoscored:sta (esim. http://www.whoscored.com/Matches/411020/Live ja sieltä "Chalkboard". Tuosta on helppo etsiä laukaukset näiden 4. sektorin mukaan. Tarkemmalla tasolla menee arpomiseksi. Laukaukset päällä on eroteltu siksi, että ne ovat vähempiarvoisia (johtavat maaliin harvemmin) kuin laukaukset jalalla.
Tässähän nyt on ongelmana se, että tuo datan kerääminen käsin on valtavan työlästä. Laskeskelin karkeasti, että tämän viiden kauden datan kerääminen vie ~ yhden henkilötyökuukauden, joten päivätyön ohella tämän valmistuminen on nyt aikataulutettu loppukeväälle. Ja mikäli sarjoja haluaa useampia, työmäärä moninkertaistuu.
Kyselen siis nyt kahta asiaa:
1. Löytyykö jotain kiinnostunutta jakamaan tätä työtaakkaa ja keräämään yhdessä dataa. Dataa en halua luonnollisesti mihinkään yleiseen jakoon, mutta jokainen projektiin osallistuva saisi valmiin datapaketin käyttöönsä. Jos kasaan saadaan isompi porukka ja kerättyä data useammista sarjoista, voitaisiin nämä laittaa jonnekin Dropboksiin tms. salasanan taakse ja datan päivityksetkin voitaisiin jatkossa jakaa. Datan voi sitten jokainen käyttää hyväkseen parhaaksi katsomallaan tavalla.
2. Kehitysideoita? Puuttuuko yllä olevasta jotain relevanttia dataa / löytyykö jotain muuta huomioon otettavaa?
Aloitin nyt projektin, jonka tarkoituksena olisi kerätä OPTA:n relevanttia tilastodataa vedonlyönnin avuksi. Taustana tähän sen verran, että nykyisellään käytän laskennassa apuna vain helposti saatavilla (ladattavissa) olevaa dataa, eli käytännössä kulmat, laukaukset ja laukaukset maalia kohti. Viime vuosina saatavilla olevan datan määrä jalkapallossa on kasvanut räjähdysmäisesti ja tämä tulee väistämättä koventamaan markkinaa entisestään. Isot pojat ostavat datan suoraan OPTA:lta ja vähän köyhemmät, mutta resursseja omaavat keräävät ne manuaalisesti. Tällä hetkellä on siten vähän tällainen "mopolla moottoritiellä" -fiilis tämän datan kanssa. Nähdäkseni tässä kehityksessä olisi hyvin nopeasti pysyttävä mukana tai kaaduttava.
Jopa noilla ym. tilastoilla (kulmat, laukaukset ja laukaukset maalia kohti) pystytään ennustamaan tulevia suorituksia tarkemmin kuin pelkällä tulosdatalla, joten yksityiskohtaisemmalla datalla pitäisi saada aikaan isoa parannusta todennäköisyysarvioihin.
Aloin nyt keräämään dataa Valioliigasta kausilta 2010/2011 - 2014/2015 seuraavilla spekseillä:
* Joukkueet
* Lopputulos
* Pallonhallinta%
* Syöttöyritykset
* Onnistuneet syötöt
* Syöttöyritykset hyökkäyskolmanneksella
* Onnistuneet syötöt hyökkäyskolmanneksella
* Kulmapotkut
* Rikkeet
* Keltaiset kortit
* Punaiset kortit
* Keskitykset
* Maalit sektoreittain
* Maalit päällä sektoreittain
* Laukaukset maalia kohti sektoreittain
* Laukaukset maalia kohti päällä sektoreittain
* Ohilaukaukset sektoreittain
* Ohilaukaukset päällä sektoreittain
* Blokatut laukaukset sektoreittain
* Blokatut laukaukset päällä sektoreittain
* Omat maalit
* Rangaistuspotkut
* Onnistuneet rangaistuspotkut
Kaikki ym. data löytyy FourForTwo:n Statszonesta ja Whoscoredista.
Tässä laukaukset sektoreittain on omassa tilastoinnissani jaoteltu neljään sektoriin. 1. maalivahdin alueen sisäpuolelta, 2. maalivahdinalueen ja kuudentoistarajan välistä keskeltä, 3. kuudentoista-alueen reunoilta ja 4. kuudentoista-alueen ulkopuolelta. Varsinkin tuo 4. sektori voisi olla jaoteltu tarkemminkin, mutta käytännön syistä näin. Laukaukset sektoreittain haen Whoscored:sta (esim. http://www.whoscored.com/Matches/411020/Live ja sieltä "Chalkboard". Tuosta on helppo etsiä laukaukset näiden 4. sektorin mukaan. Tarkemmalla tasolla menee arpomiseksi. Laukaukset päällä on eroteltu siksi, että ne ovat vähempiarvoisia (johtavat maaliin harvemmin) kuin laukaukset jalalla.
Tässähän nyt on ongelmana se, että tuo datan kerääminen käsin on valtavan työlästä. Laskeskelin karkeasti, että tämän viiden kauden datan kerääminen vie ~ yhden henkilötyökuukauden, joten päivätyön ohella tämän valmistuminen on nyt aikataulutettu loppukeväälle. Ja mikäli sarjoja haluaa useampia, työmäärä moninkertaistuu.
Kyselen siis nyt kahta asiaa:
1. Löytyykö jotain kiinnostunutta jakamaan tätä työtaakkaa ja keräämään yhdessä dataa. Dataa en halua luonnollisesti mihinkään yleiseen jakoon, mutta jokainen projektiin osallistuva saisi valmiin datapaketin käyttöönsä. Jos kasaan saadaan isompi porukka ja kerättyä data useammista sarjoista, voitaisiin nämä laittaa jonnekin Dropboksiin tms. salasanan taakse ja datan päivityksetkin voitaisiin jatkossa jakaa. Datan voi sitten jokainen käyttää hyväkseen parhaaksi katsomallaan tavalla.
2. Kehitysideoita? Puuttuuko yllä olevasta jotain relevanttia dataa / löytyykö jotain muuta huomioon otettavaa?