Data (Science) voor je ‘Pooltje’

Dat data en data-analyse een steeds grotere rol spelen in de sport is inmiddels wel bekend. Clubs als FC Midtjylland en AZ gebruiken bijvoorbeeld een uitgebreide database om potentiële aanwinsten te scouten. Wielerteams brengen veel tijd door in de windtunnel om de ideale tijdrithouding op de fiets te kunnen bepalen. Formule 1 teams gebruiken data om te kijken in welke bochten de coureur nog tijd kan winnen, of welke stand van de voorvleugel de snelste rondetijd oplevert. Data is, met andere woorden, onmisbaar geworden.

Pooltjes

Nu de sportzomer in volle gang is, wordt een andere toepassing, voor de gewone burger, van sportdata zichtbaar: pooltjes. Iedere familie en iedere zichzelf respecterende organisatie heeft dezer dagen een pooltje voor het EK. Zo staat de auteur van dit artikel keurig in de grijze middenmoot van Breinstein. De populariteit van pooltjes kan ook worden afgelezen aan de EK Pool van platform Scorito, waar maar liefst 566.000 mensen aan meedoen. En, hoewel minder breed gedragen, ook liefhebbers van de Tour de France zijn al weken geleden begonnen met het in elkaar puzzelen van het ideale team. Het sociale aspect van deze pooltjes heeft er toe geleid dat kunnen meepraten over sport, en kunnen dwepen met die ene dark horse die jij allang in de smiezen had, een prestige-object is geworden.

 width=

Voorspellen aan de hand van data

Dit is koren op de molen voor sportliefhebbers met een achtergrond in de data science. De publieke beschikbaarheid van bakken aan data over uitslagen, sporters en teams heeft ervoor gezorgd dat iedere hobbyist zijn voorspellingen kan baseren op data. Voor sommigen komt dit neer op een beetje eye-ballen van eerdere uitslagen, terwijl anderen eigenhandig gehele modellen, algoritmes en databases opzetten om hun voorspellingen te genereren. Doordat deze voorspellingen in sommige gevallen zelfs beschikbaar zijn voor de leek, kan iedere deelnemer hier mee aan de slag. Zo heeft de website WielerOrakel een zelflerend algoritme ontwikkeld dat voorspelt welke renners de grootste kans maken op het winnen van de verschillende klassementen en etappes in Tour de France, alsmede welke renners je het beste kunt opnemen in je pooltje. De uitkomst van de voorspelling is een expected win percentage (xW): de geschatte kans dat de renner het klassement of etappe winnend afsluit. Liefhebbers kunnen zelfs zelf met dit model aan de slag en het belang van de verschillende inputs naar eigen inzicht aanpassen.

Tegelijkertijd beconcurreren wetenschappers met een passie voor voetbal elkaar in het voorspellen van de Europees Kampioen. Hiervoor baseren ze zich op uitslagen van vorige wedstrijden, informatie over de teams en landen, en/of data van wedkantoren om de volgende kampioen te voorspellen. Dit levert altijd een stroom van ietwat informele papers op die gretig aftrek vinden bij mede-hobbyisten. Zo bundelden onderzoekers van de Universiteiten van Gent, Innsbruck, Dortmund, München en Molde hun individuele modellen, trainden ze aan de hand van vorige EK’s, en concludeerden dat Frankrijk de grootste kans heeft om Europees Kampioen te worden, gevolgd door Engeland en Spanje. Toch moeten er soms nog menselijke beslissingen genomen worden, waardoor de koppigheid van de onderzoeker ook een rol spelen. Een oud-collega van Tilburg University had bijvoorbeeld de ‘vloek van de wereldkampioen’ in zijn model, maar besloot voor 2018 dat die vloek toch niet op Duitsland van toepassing zou kunnen zijn…

Onzekerheid

Er blijft natuurlijk een grote mate van onzekerheid over. De xW van topfavoriet Frankrijk was slechts 14.8 procent volgens de Gentse onderzoekers, terwijl de Sloveen Primoz Roglic volgens WielerOrakel met 16.0 procent de grootste kans maakte om de Tour de France winnen. Ondertussen weten we dat beide favorieten deze rol niet waar zullen kunnen maken. Daarnaast is er altijd sprake van onverwachte willekeur. Eriksen die een hartstilstand krijgt? Een supporter die half op de weg staat en het halve peloton onderuit haalt? Het blijven elementen met grote gevolgen voor de uitkomst die onmogelijk te vangen zijn in een model. Daarom zal een model ook nooit de pool winnen als er maar genoeg deelnemers zijn. Er is altijd wel iemand die tegen alle verwachtingen in Tsjechië, Denemarken én Oekraïne de kwartfinales van het EK zag halen en tot grote frustratie van de zelfbenoemde kenners zijn dit vaak de mensen die hun voorspellingen baseren op de kwaliteit van de liedjes gezongen door de landen op het Songfestival. Maar misschien zijn dat juist wel de visionairs…

;