Tämä päivitys tulee olemaan jatkoa edelliseen kirjoitukseen. Olisi siis tarkoitus löytää malli, jonka avulla voidaan huomioida muuttuvat tapahtumat peleissä. Tähän ongelmaan on esitetty kaksi erilaista ratkaisua kirjallisuudessa (varmaan muitakin, mutta näihin olen vaan törmännyt), joiden pohjalta asiaa voi lähteä jatkokehittämään. Nämä ovat Ilmari Juvan
Jalkapallo-ottelun lopputuloksen stokastinen mallintaminen ja Dixonin&Robinsonin
A Birth Process Model for Association Football Matches
Päällisin puolin nämä näyttävät sangen erilaisilta: Juvalla diskreettiaikainen Markovin ketju ja D&R: llä puolestaan jatkuva-aikainen syntymämalli. Molemmissa kuitenkin pohjilla on sama idea, eli maali-intesiteetti muuttuvat pelitilanteen mukaan. Käytännössä olen varma, että molempien antamat vastaukset olisivat hyvin lähellä toisiaan, mutta keskityn tässä nyt tuohon D&R:n artikkeliin. Se on marginaalisesti joustavampi malli (mm. Markovin ketjuilla voidaan huomioida vain 1 maali/min).
Malli
Yksi tapa ajatella tuota D&R:n mallia on, että se yleistää Poisson jakaumaa, tai tarkemmin sanottuna sen taustalla olevaa prosessia. Eli Poisson jakauma on homogeenisen Poisson-prosessin (maali-intesiteetti pysyy vakiona koko ajan) tapahtumien lukumäärien jakauma. Sen sijaan epähomogeenisessä Poisson-prosessissa maali-intensiteetti voi muuttua pelitapahtumien ja esim. pelikellon mukaan. Foorumille on hiukan ikävää kirjoitella matemaattisia merkintöjä, joten yksityiskohdat taas tuolla artikkelissa, mutta seuraava esimerkki ehkä avaa perusideaa miten tämä tapahtuu:
Peli: A vs B, lopputulos 1-1, A teki ensimmäisen maalin 5min kohdilla ja B puolestaan 65min.
Maali-intensiteetit (=odotusarvot) peliin lähtiessä: u_A ja u_B
Nyt pitäisi siis laskea todennäköisyys, että peli päättyi 1-1 ja maalit syntyivät noina ajanhetkinä. Tähän vastaus voidaan hakea ekspotentiaalijakaumasta (merkitään tiheysfuktiota e_pdf ja kertymäfuktiota e_cdf), joka antaa todennäköisyyden tapahtumien väliselle ajalle Poisson-prosessissa. Ideana on jakaa ottelu ajanjaksoihin syntyneiden maalien mukaan, eli tässä tapauksessa 0-5min, 5-65min, 65-loppu. Sitten ottelun tn voidaan laskea seuraavasti:
1. Lasketaan tn, että joukkue A tekee maalin 5min kohdilla, eli e_pdf(5;u_A). Kerrotaan tämä todennäköisyydellä, että joukkue B ei tee maalia tällä jaksolla, joka saadaan puolestaan ekspotentiaalijakauman kertymäfunktiosta seuraavasti: 1-e_cdf(5;u_B).
(huom! artikkelissa laskut menevät tässä kohtaa hiukan eri tavalla. Siinä intensiteetistä otetaan integraali ajan suhteen, koska
ne eivät pysy vakiona aikavälillä, kuten tässä esimerkissä. Pohjalla oleva idea on kuitenkin sama)
Muutetaan intensiteettejä pelitilanteen mukaan, esim. kerrotaan u_A ja u_B joillakin kertoimilla.
2. Toistetaan samanlaiset laskut aikavälille 5-65min mitä 1. kohdassa, mutta uusilla intensiteeteillä. Lopuksi taas päivitetään intensiteetit tilannetta vastaavaksi.
3. Tn-laskut aikavälille 65-loppu. Muuten sama, mutta nyt kumpikaan ei tehnyt maalia, joten molemmat saadaan kertymäfunktiosta.
Lopuksi sitten vaan kerrotaan nämä eri vaiheissa saadut todennäköisyydet keskenään. Riippuvuusrakenne maalimäärien välille muodostuu näiden tilanteen mukaan muuttuvien kertoimien avulla. Jos intensiteettejä ei muutettaisi, niin saataisiin samat vastaukset mitä Poisson jakauman avulla. Lasketut tn:t ovat siis todennäköisyyksiä maalien syntyhetkille (ja määrille). Jos sen sijaan haluttaisiin esim. 1X2-jakauma, niin se voitaisiin teoriassa saada integroimalla yli kaikkien mahdollisten maalimäärien ja ajanhetkien. Onneksi tätä ei tarvitse kuitenkaan tehdä. Halutut todennäköisyydet voidaan saada MCMC-simulaatioilla melko tehokkaasti ja yksinkertaisesti.
Tulokset
Esimerkin omaisesti näytän tässä muutamia tuloksia eräälle yksinkertaiselle mallille (muistaakseni malli VI tuolla artikkelissa + pari omaa lisäystä). Siinä on määritelty alla olevat kertoimet ja ohessa myös Englannin valioliigalle (sama data mitä aiemmin) opitut arvot. Tulkinta on se, että jos kerroin>1, niin joukkueiden maali-intesiteetti kasvaa verrattuna tasatilanteeseen ja jos <1 niin toisin päin.
Kotijoukkueen intensiteettiin vaikuttavat tekijät:
kerroin(kotijoukkueen 1-0 johto), 0.91
kerroin(kotijoukkueen johto ja tilanne muu kuin 1-0), 1.02
kerroin(kotijoukkueen 0-1 tappioasema), 1.08
kerroin(kotijoukkue tappiolla ja tilanne muu kuin 0-1), 1.00
(kotijoukkueen ajasta riippuva lineaarinen termi, muotoa intensiteetti_uusi = intensiteetti + peliaika*kerroin, missä aika skaalattu välille 0-1), 0.50
Vierasjoukkueen intensiteettin vaikuttavat tekijät:
kerroin(vierasjoukkueen 0-1 maalin johto), 0.82
kerroin(vierasjoukkueen johto ja tilanne muu kuin 0-1), 1.08
kerroin(vierasjoukkueen 1-0 tappioasema), 0.96
kerroin(vierasjoukkueen tappiolla ja tilanne muu kuin 1-0), 1.08
(vierasjoukkueen ajasta riippuva lineaarinen termi), 0.09
Molempien joukkueiden intensiteettiin vaikuttavat kertoimet:
kerroin(pelin eka minuutti), 0.36
kerroin(45. min + lisäaika), 3.32
kerroin(2. puoliajan eka minuutti), 0.40
kerroin(90.min + lisäaika), 6.25
kerroin(maalin jälkeinen minuutti) 0.43
Alla visualisointi intensiteettien muutoksista tuossa aiemmin käytetyssä A vs B pelissä(samat kertoimet mitä yllä, intensiteetit alussa molemmilla 1):
Tätä menetelmään voitaisiin laajentaa moneenkin suuntaan. Esim. intuitiivisesti tuntuisi selkeältä, että jos tasaisessa pelissä vierasjoukkue menee 0-1 johtoon heti ottelun alussa, niin kotijoukkue ei muuta pelitapaansa välittömästi, vaan esim. jossakin 60min kohdilla. Joten siis tuntuisi loogiselta, että näiden eri tilanteisiin liittyvien kertoimien pitäisi olla ajasta riippuvaisia. Muita testailtavia asioita voisi olla esim. kokoonpanomuutokset, punaiset kortit, muut parametrisoinnit jne. Ehkä palaan näihin kysymyksiin joskus tulevaisuudessa. Seuraavaksi käännän katsetta kuitenkin enemmän muihin (perus)tilastoihin. Näiden osalta suurin kysymys on tietysti miten sisällyttää niitä malliin, niin että ne tuovat oikeasti lisäinformaatiota joukkueiden tasosta.