Il più grande archivio italiano di analisi statistiche sul tennis professionistico. Parte di Tennis Abstract

Probabilmente il più grande archivio italiano di analisi statistiche sul tennis professionistico. Parte di Tennis Abstract

Guida alle simulazioni predittive

ULTIMI ARTICOLI

ULTIMI ARTICOLI

Pubblicato il 6 agosto 2012 su TennisAbstract – Traduzione di Edoardo Salvati

// Uno degli strumenti che più utilizzo è quello dei pronostici per i singoli tornei, basati sulle simulazioni del tabellone. Ne spiego qui il funzionamento.

Simulazione Monte Carlo

Per generare previsioni per un intero torneo, serve prima trovare un modo per predire il risultato delle singole partite. Per fare questo, uso il mio sistema di classifica JRank, che ho già introdotto in precedenza. Con una stima numerica della bravura di un giocatore, non molto diversa dai punti per la classifica dell’ATP, è possibile calcolare la probabilità che ciascun giocatore vinca la partita.

Una volta ottenute le probabilità per le partite, si tratta di “giocare” gli scontri del tabellone migliaia e migliaia di volte, operazione comodamente simulata dal computer.

Generazione di un numero casuale

Il codice che uso (di cui una versione è a disposizione di tutti) si basa sulla generazione di un numero casuale (random-number generator o RNG) per stabilire il vincitore di ogni partita. Ad esempio, come testa di serie numero uno del Canada Masters 2012 in corso questa settimana, Novak Djokovic ha un bye al primo turno, e nel turno successivo affronterà il vincitore tra Bernard Tomic e Michael Berrer. JRank stima che Tomic abbia il 64% di probabilità di battere Berrer. Per “giocare” quella partita in una simulazione di torneo, l’RNG fornisce un numero tra 0 e 1. Se il risultato è inferiore a 0.64, Tomic è il vincitore, altrimenti vince Berrer. 

Il vincitore avanza nel tabellone per “giocare” contro Djokovic. Il codice determina la probabilità di Djokovic di battere chiunque avanzi tra i due giocatori del turno precedente, e genera poi un numero casuale per il vincitore di quell’incontro. Ripetendo il procedimento per 47 volte, una per ogni partita, si ottiene la simulazione di tutto il torneo.   

Ogni simulazione quindi restituisce un insieme di risultati. Magari Tomic raggiunge il secondo turno, perde da Djokovic, il quale perde poi nei quarti di finale da Juan Martin Del Potro, che prosegue fino a vincere il torneo. Questa è una possibilità – ed è più probabile di altre – ma non è l’unica.

Per questo è necessario fare migliaia (o anche milioni) di simulazioni. Su un numero così grande, Del Potro qualche volta vince, ma più spesso Djokovic vince il loro scontro nei quarti. Tomic di solito supera il secondo turno, ma qualche volta è Berrer a vincere. Tutti questi “di solito” e “qualche volta” sono trasformati in percentuali in funzione di quanto spesso si verificano.

Simulazione Monte Carlo

Per ogni accoppiamento in una partita, non ci si attende sempre lo stesso risultato. Pablo Andujar è quasi sempre lo sfavorito sul cemento, ma è probabile che batta sulla terra quasi tutti i giocatori di media classifica. I giocatori giocano (leggermente) meglio nei tornei di casa. I qualificati fanno peggio dei giocatori che non si sono dovuti qualificare.

Per questo, se dovessimo far giocare il tabellone del torneo di Washington 2012 sui campi in terra di Vina Del Mar, i numeri cambierebbero sostanzialmente. I giocatori americani e gli specialisti del cemento vedrebbero le loro probabilità diminuire, mentre i giocatori cileni e i terraioli vedrebbero aumentare le loro, proprio come suggerisce il buon senso tennistico.

Variazioni nella simulazione: indipendenza dal tabellone

Alcuni dei risultati più interessanti arrivano scombussolando il tabellone. Ogni volta che i giocatori vengono inseriti in un sistema incrociato di scontri diretti, ci sono naturalmente vincitori e perdenti. Chiunque sia sorteggiato per affrontare una testa di serie al primo turno (o al secondo, come Berrer e Tomic possono testimoniare) è probabilmente sfortunato, mentre in un altro punto del tabellone un paio di qualificati sono più fortunati perché si scontrano tra di loro per il passaggio al secondo turno.   

Questo è uno dei motivi per cui occasionalmente faccio simulazioni indipendenti dal tabellone (draw-independent simulations o DIS). Se si vuole conoscere l’impatto positivo o negativo del tabellone su un giocatore, bisogna trovare le sue probabilità di successo prima del sorteggio (le DIS tornano utili anche nelle circostanze in cui si sa chi prende parte al torneo ma il sorteggio non è ancora avvenuto).

Per una simulazione indipendente dal tabellone, è necessario fare un passo indietro. Invece di considerare fissato il tabellone, è il campo di partecipazione a essere fissato, comprese le teste di serie se sono disponibili. Si procede poi utilizzando la stessa logica degli organizzatori del torneo nel costruire il tabellone: la testa di serie numero 1 va nella parte alta, la 2 nella parte bassa, la 3 e la 4 sono sorteggiate nei rimanenti quarti di finale, dalla 5 alla 8 il sorteggio è per i rimanenti ottavi e così via.    

Variazioni nella simulazione: indipendenza dalle teste di serie

È possibile andare oltre e misurare gli effetti benefici del sistema di teste di serie. La maggior parte delle volte si dà per assodato il sistema delle teste di serie, perché vogliamo che i primi due del mondo si affrontino solo in finale, e così via. Questo però ha delle conseguenze importanti sulle probabilità di un giocatore di vincere il torneo. Nel Canada Masters a Toronto di questa settimana, le prime 16 teste di serie (insieme a, in tutta probabilità, uno o due lucky loser molto fortunati) hanno un accesso diretto al secondo turno. E questo aiuta!

Anche in assenza di bye, il sistema di teste di serie garantisce partite relativamente facili per i primi turni. Per un giocatore come Djokovic questo aspetto può fare poca differenza, avanzerà anche se deve giocare con una testa di serie come Florian Mayer o un giocatore non testa di serie come Jeremy Chardy. Ma nel caso di Mayer, ci sono evidenti benefici: sta giocando leggermente meglio di un giocatore fuori dalle teste di serie, ma ha la garanzia di evitare i più forti fino al terzo turno.

Ecco perché si parla molto del vantaggio di rientrare tra i primi 32 per il sorteggio nei tornei dello Slam. Quando sono in gioco punti e soldi importanti, è meglio dover affrontare partite meno impegnative (almeno sulla carta) in qualsiasi turno. Kevin Anderson e Sam Querrey non sono separati in classifica da molti punti, ma se il sorteggio per gli US Open 2012 fosse fatto oggi, Anderson sarebbe testa di serie, Querrey no. Immaginate chi tra i due è più probabile ritrovare al terzo turno!

Per la simulazione indipendente dalle teste di serie, non si genera un tabellone logico, come nelle DIS, si genera invece un tabellone casuale in cui tutti i giocatori possono affrontarsi al primo turno.

Misurare le variazioni

Se mettiamo a confronto previsioni basate sull’effettivo tabellone con previsioni indipendenti dal tabellone o dalle teste di serie, vogliamo quantificare la differenza. Per fare questo, ho utilizzato due statistiche: punti classifica attesi (Expected Ranking Points o ERP) e premi partita attesi (Expected Prize Money o EPM).

Entrambi sintetizzano previsioni per un intero torneo in un singolo numero per ogni giocatore. Se Djokovic ha una probabilità del 30% di vincere a Toronto questa settimana, con quella probabilità prenderà 1000 punti (quelli per la vittoria di un Master 1000). Se ci fossero solo quei punti, l’ERP di Djokovic sarebbe il 30% di 1000, vale a dire 300.

Naturalmente, se Djokovic perde, guadagna comunque dei punti. Per ottenere la sua ERP complessiva, bisogna considerare la sua probabilità di perdere in finale e il numero di punti assegnati al finalista, la sua probabilità di perdere in semifinale e il numero di punti assegnati al semifinalista e così via. Per calcolare la EPM, si utilizza lo stesso procedimento ma, ovviamente, con i premi partita.

Queste due statistiche permettono di valutare quanto il tabellone favorisce o sfavorisce un giocatore. Ad esempio, prima del Roland Garros 2012, ho calcolato che l’EPM di Richard Gasquet è aumentato all’incirca del 25% grazie a un tabellone davvero molto fortunato. 

Questi numeri aiutano inoltre ad analizzare le scelte di un giocatore in termini di calendario. Il forte campo di partecipazione alle Olimpiadi di Londra e il ben più debole livello al torneo di Washington 2012 hanno creato una situazione anomala: i giocatori di classifica inferiore hanno potuto raccogliere più punti dei giocatori più forti. Anche prima dell’inizio del torneo, si sarebbe potuto usare l’approccio ERP/EPM per vedere se, ad esempio, Mardy Fish si sarebbe aspettato di prendere 177 punti nel torneo di Washington mentre David Ferrer, con una classifica nettamente superiore, si sarebbe aspettato di prendere solo 159 punti a Londra. ◼︎ 

The Tournament Simulation Reference

DELLO STESSO AUTORE