Wie wint het WK voetbal 2022? Voorspel het met Data

Zondag 20 november 2022 is de aftrap van het eerste winterse WK voetbal in Qatar. De hoge temperaturen in de zomermaanden juni en juli maakten het lastig om op een hoog niveau tegen een bal te trappen, en daarom is het unieke besluit genomen om het toernooi te starten in november. Onder het oog van miljoenen fans gaan in 28 dagen, 32 nationale voetbalteams de strijd met elkaar aan in 64 wedstrijden. Met een gezamenlijk doel: het thuisbrengen van de wereldbeker. Los van de strijd op het veld is er ook sprake van een strijd voor de televisie. Wie van je familie, collega’s en vrienden kan er het beste in de toekomst kijken en voorspelt de winnaar van het wereldkampioenschap?

Datagedreven aanpak

Het zo goed mogelijk voorspellen van standen is een kunst die door veel bookmakers wordt beoefend aan de hand van het bouwen van datamodellen. Deze datamodellen voorspellen ‘odds’, wat beter bekend staat als quotering. Een quotering is niets meer dan een weergave van een kans. De kans op winst/gelijkspel/verlies wordt berekend met behulp van beschikbare gegevens. Alle factoren die mogelijk een rol spelen bij het spelen van een wedstrijd worden meegenomen. Hierbij valt te denken aan onderlinge resultaten, doelpunten voor, ruststand, aantal gele kaarten en zelfs de scheidsrechter.

Hoe meer historische data beschikbaar is, hoe groter de kans dat de quotering de werkelijke waarschijnlijkheid weerspiegelt. Over het algemeen zijn algoritmes goed in het voorspellen van kansen bij voetbalwedstrijden, omdat er veel data beschikbaar is. Dit is bij het wereldkampioenschap voetbal lastiger in te schatten, gezien het toernooi slechts één keer per vier jaar gehouden wordt. Het voorspellen van het wereldkampioenschap voetbal vereist daarom meer detail en nuance.

Data science en machine learning

De huidige toepassingen van data science blijft groeiende in de voetbalwereld. Verscheidene modelleringstechnieken worden toegepast om zo optimaal mogelijk te voorspellen. Voorspellen met behulp van data science en machine learning wordt gebaseerd op historische data en het uitvoeren van statistische analyses met een wiskundige grondslag.

Dit artikel licht het algoritme van ‘Liberum’ toe. Zij hebben getracht een voorspelling te maken op basis van de FIFA-wereldranglijst en voegen sociaaleconomische factoren toe zoals het BBP per inwoner, populatiegrootte, temperatuur en thuisland. Ook wordt een interessante variabele ‘winner’s curse’ toegevoegd, wat duidt op de historische moeilijkheid om de titel te verdedigen. Met deze variabelen wordt het datamodel getraind en kan het worden toegepast op de nieuwe gegevens van het wereldkampioenschap voetbal om kansen te voorspellen middels simulatie.

Uitgelichte voorspelling

Het getrainde model verklaart 45% variatie in het voorspellen van de Wk voetbal kampioen. Dit betekent dat 55% van het resultaat wordt bepaald door geluk. Desalniettemin wist het algoritme de winnaar van 2014 (Duitsland) en 2018 (Frankrijk) correct te voorspellen. Dit is echter een steekproefgrootte van slechts twee wereldkampioenschappen voetbal, waardoor resultaten statistisch gezien per definitie niet-significant zijn.

Het datamodel overtreft grote investeringsbedrijven als Goldman Sachs, UBS, ING, Nomura en Macquarie Bank in het voorspellen van de winnaar WK voetbal en streeft het datamodel naar een zo goed mogelijke afspiegeling van de werkelijkheid. Onderstaande uitkomst (Tabel 1) geeft de groepsverdeling en kansen weer dat een land doorgaat in de groepsfase. Het is belangrijk om hierbij te vermelden dat er twee landen zijn die doorgaan, waardoor de totalen uitkomen op 200%. Hieruit is bijvoorbeeld af te lezen dat het Nederlandse elftal een kans heeft van 84% om de groepsfase te overleven en bij de laatste zestien te komen.

Groep A Groep B Groep C Groep D
Nederland (84%) Engeland (68%) Argentinië (73%) Frankrijk (80%)
Senegal (78%) Verenigde Staten (46%) Mexico (55%) Denemarken (56%)
Ecuador (38%) Wales (45%) Polen (39%) Tunesië (35%)
Qatar (0%) Iran (41%) Saudi-Arabië (33%) Australië (29%)

 

Groep E Groep F Groep G Groep H
Spanje (67%) België (80%) Brazilië (90%) Portugal (69%)
Duitsland (55%) Kroatië (50%) Zwitserland (41%) Uruguay (62%)
Japan (40%) Marokko (40%) Servië (36%) Zuid-Korea (40%)
Costa Rica (38%) Canada (30%) Kameroen (33%) Ghana (28%)

Tabel 1: Groepsfase (Bron: Liberum)

Goed of slecht nieuws?

Na een simulatie van de groepswedstrijden spelen de nummers één van elke poule tegen de runners-up van de opvolgende groep. In deze voorspelling zal Nederland zegevieren tegen de Verenigde Staten om vervolgens tegen Argentinië te verliezen. Bij het voorspellen van de winnaar van het WK voetbal 2022 speelt de verloop van het toernooi een belangrijke rol als variabele. Zo kan er een makkelijkere (in de vorm van quoteringen) weg naar de top zijn. Figuur 1 geeft grafisch de verloop van het toernooi weer, met als winnaar Argentinië.

Concluderend, dit model voorspelt dat Nederland er in de kwartfinale uit ligt en het Louis van Gaal niet gelukt is om acht jaar later aan het langste eind te trekken. Het goede nieuws daarentegen is dat het model slechts 45% variatie weet te verklaren en dat voetbal wordt gespeeld op gras met een bal, in plaats van een simulatie door een machine.

 width=

Bronnen

;