Il più grande archivio italiano di analisi statistiche sul tennis professionistico. Parte di Tennis Abstract

Probabilmente il più grande archivio italiano di analisi statistiche sul tennis professionistico. Parte di Tennis Abstract

Strategie per vincere al fantatennis

ULTIMI ARTICOLI

ULTIMI ARTICOLI

Pubblicato il 12 settembre 2021 su StatsOnTheT – Traduzione di Edoardo Salvati

// Agli US Open di quest’anno, gli appassionati potevano lasciarsi coinvolgere da una forma diversa di intrattenimento: un torneo di fantatennis. In questo articolo, illustro un modello che può aiutare a simulare strategie vittoriose. L’idea di base è partire dai risultati dei tabelloni maschile e femminile, fare previsioni sulle statistiche della singola ipotetica partita e fattorizzare i corrispondenti fantapunti disponibili. Naturalmente, non c’è la pretesa di indicare la vittoria con il solo modello, perché il ruolo della fortuna è troppo rilevante, ma può rappresentare uno strumento utile ad adottare strategie vincenti.

Nel caso non vi foste interessati al fantatorneo sponsorizzato da IBM, ecco un veloce riepilogo delle regole principali. I partecipanti dovevano creare una formazione con un giocatore da ciascun quarto dei tabelloni di singolare maschile e femminile. Si poteva scegliere solo un giocatore tra le prime 16 teste di serie. Per ogni turno, la vittoria assegnava 100 punti, 5 erano i punti per ogni break ottenuto e 2 punti per ogni ace. C’era del margine per rivedere i componenti della formazione dopo gli ottavi di finale ma, non sapendone il preciso funzionamento, ho preso in considerazione solo i risultati della formazione iniziale.

La domanda più importante

Come si crea una buona formazione? Cercherei di stabilire cosa s’intende per buona formazione. È ragionevole pensare che l’obiettivo principale di una buona strategia è la massimizzazione, in qualche misura, della distribuzione dei punti che ogni giocatore può vincere. Questo significa che un primo passaggio cruciale è la stima della distribuzione dei fantapunti per tutti i giocatori presenti in tabellone. La modalità più immediata è quella di isolare la singola partita. Dati uno specifico giocatore e il suo avversario, vogliamo pronosticare il vincitore, il numero di break e di ace per entrambi i giocatori.

Tra i mille modi per prevedere l’esito di una partita di tennis, ho scelto il sistema di valutazioni Elo. Per le statistiche, serve sapere la probabile durata della partita e avere un’idea più precisa del conteggio complessivo di una qualsiasi di esse nel corso della partita. Siccome sia i break che gli ace possono essere ottenuti solo rispettivamente alla risposta o al servizio, e non entrambi, mi è parso normale pensare al numero totale di game al servizio. Se riusciamo a stimare il numero probabile di game al servizio, rimane solo da prevedere il numero probabile di break e ace per ogni servizio giocato.

IMMAGINE 1 – Illustrazione delle componenti del modello previsionale dei fantapunti di ogni partita degli US Open

Il diagramma dell’immagine 1 riepiloga tutti gli elementi e le tecniche base di modellazione. Per ogni statistica della partita, ho costruito modelli Poisson con la tecnica di apprendimento automatico Gradient Boosting Machine, o GBM, usando i seguenti fattori:

  • Tipologia di superficie
  • Indicatore del turno (almeno i quarti di finale)
  • Indicatore di numero di set da vincere (solo per gli uomini)
  • Valutazione Elo totale (per giocatore e avversario)
  • Differenza di valutazione Elo (per giocatore e avversario)
  • Percentuale totale di punti vinti al servizio (per giocatore e avversario)
  • Differenza di percentuale totale di punti vinti al servizio (per giocatore e avversario)

Nel loro insieme, questi elementi si rifanno agli aspetti più significativi di una partita che possono incidere sulle statistiche, così come esprimono la qualità e competitività della partita rispetto alla bravura complessiva e prestazione al servizio del giocatore. In questo caso, la percentuale di punti vinti al servizio non rappresenta tanto il reale rendimento in campo, quanto invece la prestazione attesa al servizio per il determinato giocatore e per l’anno considerato, sulla base di un modello lineare misto. Lo scopo è di evitare che le varie partite giocate e i vari avversari affrontati aggiungano rumore statistico ai risultati effettivi di un giocatore al servizio.

Applicando l’apprendimento automatico GBM si ha il vantaggio di evidenziare possibili interazioni o non linearità eventualmente associate agli elementi in esame. Anche se, in tutta onestà, il risultato non è dissimile da quello di un semplice modello log-lineare, essendo però una metodologia più flessibile su cui ampliare.

Ottenere la distribuzione dei fantapunti

Sistemati tutti questi componenti, dovrebbe essere facile vedere la progressione di una simulazione Monte Carlo. Si inizia con le partite di primo turno, nelle quali si stabilisce un vincitore sulla base delle valutazioni Elo e si fanno previsioni sui game di servizio, break ottenuti e ace serviti da ogni giocatore in funzione delle frequenze per una partita sul cemento in un torneo Slam e per i giocatori in questione, stabilite con l’apprendimento automatico GBM. Si procede poi con l’assegnazione dei fantapunti come dalle regole e si reitera il processo al turno successivo. Per ottenere la distribuzione dei fantapunti di ciascun giocatore, ho applicato la metodologia per 10.000 volte ai tabelloni maschili e femminili.

La bontà di questo esercizio dipende in larga parte dalla qualità previsionale. Il modello Elo è noto come strumento affidabile nelle previsioni di tennis, con un’accuratezza del 70% negli Slam. Per le statistiche della partita, la distribuzione dell’immagine 2 fornisce un confronto con gli Slam su cemento negli ultimi dieci anni. Possiamo vedere come in questo modo si è in grado di includere le proprietà principali delle statistiche considerate, anche se sembra esserci una sovrastima degli ace e dei game di servizio per il circuito maschile.

IMMAGINE 2 – Validazione delle previsioni relative alle statistiche delle partite maschili degli US Open rispetto ai risultati dagli Slam sul cemento dal 2010 a oggi

In campo femminile, le distribuzioni previste per le statistiche della partita sono generalmente buone, come nell’immagine 3. Esiste della bimodalità nei game di servizio che non viene catturata dal modello, ma la media e la varianza della distribuzione sono comunque in giusto accordo. C’è quindi del margine di miglioramento, ma è una base solida da cui derivare la distribuzione dei fantapunti.

IMMAGINE 3 – Validazione delle previsioni relative alle statistiche delle partite femminili degli US Open rispetto ai risultati dagli Slam sul cemento dal 2010 a oggi

La vittoria compone almeno il 75% del totale dei fantapunti

Quando ho letto le regole del fantatorneo, una delle prime domande è stata quanto soppesare ace e break relativamente alle vittorie. Con 100 punti a vittoria, sembrava evidente che vincere avrebbe fatto accumulare il maggior numero di punti, ma quanti in più rispetto al resto? Non ne avevo idea. Ecco uno degli ambiti in cui il modello può venire incontro. In considerazione di tutte le partite incluse nella simulazione, i punti medi di chi ha passato il turno mostrano che, nelle partite maschili, la vittoria compone il 75% del totale dei fantapunti. È interessante come ace e break hanno una porzione quasi equivalente dei punti rimanenti, a significare che i punti per ace e break sono approssimativamente identici alla deviazione standard dell’altra statistica. Il grafico in basso nell’immagine 4 mostra il decimo percentile inferiore e superiore di punti per ogni statistica della partita, e si osserva un intervallo di +/- 6 punti per gli ace e +/- 8 punti per i break.

IMMAGINE 4 – Peso relativo dei fantapunti attesi per le partite maschili

Per le donne, le vittorie compongono una percentuale ancora più alta dei punti totali. Il motivo è da ricercare nella bassa frequenza di ace nel tennis femminile. È per questo che gli ace sono un misero 4% dei fantapunti tipici di una partita femminile.

IMMAGINE 5 – Peso relativo dei fantapunti attesi per le partite femminili

Distribuzione dei punti per giocatore

Cosa suggerisce il modello riguardo alla distribuzione di punti per giocatore all’inizio del torneo? Per gli uomini, i quattro semifinalisti sono anche al vertice dei fantapunti attesi, con Alexander Zverev, Daniil Medvedev e Novak Djokovic da cui si attende in media un guadagno di più di 500 punti. Da notare che la maggior parte dei primi 32 sono anche teste di serie, ma non tutti. Francis Tiafoe e Ilya Ivashka sono infatti esempio di giocatori che ci si aspettava facessero guadagnare più punti rispetto alla loro classifica ufficiale.

IMMAGINE 6 – Primi 32 giocatori per fantapunti attesi all’inizio degli US Open 2021

Analizzando quarto di finale per quarto di finale, troviamo che il Q1 e il Q3 erano i più carichi di punti potenziali. E infatti, tra i dieci giocatori con aspettative di maggior punteggio, uno solo era nel Q2 e due nel Q4. Anche esaminando il decimo intervallo inferiore di punteggio e il decimo superiore, come nell’immagine 6, emergono aspetti degni di nota. Ad esempio, tutti i giocatori, a esclusione dei più forti, hanno un intervallo inferiore che è minore di 100 punti, che vuol dire che questo scenario che guida la parte bassa della distribuzione è lo scenario nel quale quei giocatori perdono al primo turno. Di contro, sono i pochi ad avere un intervallo superiore che passa i 500 punti, a indicazione che lo scenario più favorevole per la grande maggioranza dei giocatori è quello di non andare oltre i quarti di finale. È a questi estremi della curva di distribuzione dei punti che si osservano gli effetti più rilevanti sul tabellone.

Se da un lato è utile vedere la suddivisione dei punti per giocatore, la decisione più importante in un torneo di fantatennis è la formazione. Ipotizziamo di avere una strategia per giocatore in funzione dei punti a disposizione. Un modo per arrivare a una composizione ottimale è di stabilire i primi 16 giocatori da ogni quarto che massimizzino la strategia e fare poi lo stesso per i 16 di seconda scelta nei rispettivi rimanenti quarti di tabellone. Otterremmo così quattro possibili formazioni da sottoporre a confronto sul numero di punti complessivi.

Qual è la strategia-punto che dovremmo usare?

Dipende dalla nostra avversione al rischio. Un metodo è la strategia “sulle aspettative”, nella quale ci si attende che i giocatori giochino alla pari della loro classifica facendo quindi ottenere il massimo dei punti previsti. Un’altra possibilità è la strategia dello scenario peggiore o minimo-massimo, nella quale si pensa che i giocatori giochino sotto la loro classifica e si massimizzano i punti derivanti dallo scenario peggiore. La strategia opposta è quella dello scenario migliore. L’immagine 7 considera le tre strategie e le formazioni determinate da ciascuna di esse.

Relativamente alla testa di serie più alta per il Q1, Q2 e Q4, si sceglierebbe lo stesso giocatore a prescindere dal tipo di strategia e al rischio connesso. Per il Q3, se si vuole minimizzare la perdita nel caso dello scenario peggiore, c’è una differenza dovuta al fatto che si prevedeva che Christian Garin avrebbe vinto più punti in una sconfitta al primo turno di Andrey Rublev. Vale a dire che in questo caso i due giocatori erano sufficientemente ravvicinati da rendere più importante l’impatto del tabellone.

IMMAGINE 7 – Possibili formazioni per il fantatorneo maschile agli US Open 2021 sulla base di diverse strategie di rischio

Preferire Garin a Rublev, o viceversa, sarebbe comunque stato marginale considerata la presenza nella formazione di Djokovic o Medvedev. Ed è proprio questo il dilemma per gli US Open 2021: Djokovic o Medvedev? Al di la di questa scelta, si nota il fatto che Ugo Humbert ha dominato la strategia per il Q3 come miglior selezione probabilistica per tutti gli scenari di rischio, rendendo i rimanenti due quarti quelli con il maggior numero di opzioni e l’incertezza più alta.

La vittoria di Raducanu tra le donne ha fatto saltare il banco

Per quanto riguarda le donne, procedere secondo probabilità avrebbe avuto un esito quasi ridicolo, vista la favola di Leylah Fernandez e Emma Raducanu. Da un lato infatti Fernandez non sarebbe stata nemmeno tra le prime 32 per punti attesi, dall’altro Raducanu si sarebbe posizionata appena fuori da quel gruppo. All’inizio del torneo, la preferenza statistica attorno cui costruire la formazione sarebbe andata naturalmente per Naomi Osaka e Ashleigh Barty, entrambe con due vittorie attese anche nel peggiore degli scenari.

IMMAGINE 8 – Prime 32 giocatrici per fantapunti attesi all’inizio degli US Open 2021

Vale la pena evidenziare quanto fossero ravvicinate le distribuzioni delle migliori giocatrici all’interno del fantatorneo. Escluse Osaka e Barty, i punti attesi per le migliori 32 sono infatti ricompresi tra 153 e 398, cioè i fantapunti totali ottenibili da trenta delle migliori giocatrici si discostavano solamente per 245 punti. A confronto, c’erano 390 punti a separare i fantapunti totali ottenibili dai trenta dei migliori giocatori, tolti Djokovic e Medvedev. Come immaginabile, questo significa in una maggiore varietà di opzioni di formazione sotto diversi scenari di avversione o propensione al rischio. Relativamente alle donne, la maggiore incertezza risedeva nella scelta della testa di serie più alta del Q4, dove era ragionevole prendere sia Barbora Krejcicova che Aryna Sabalenka pur in strategie di rischio differenti. Non si trova poi nessuna giocatrice fuori dalle prime 16 per qualsiasi quarto come predominante a prescindere dalla strategia di rischio.

IMMAGINE 9 – Possibili formazioni per il fantatorneo femminile agli US Open 2021 sulla base di diverse strategie di rischio

Questo tentativo di elaborazione di un modello per strategie vittoriose in un fantatorneo mostra che è possibile fattorizzare l’importanza dei punti assegnati, la fortuna del sorteggio e le statistiche della partita nella valutazione dei giocatori o giocatrici potenzialmente più remunerativi per la costruzione di una formazione. Rispetto alle regole previste per gli US Open, erano le partite vinte a determinare il punteggio totale, aumentando la pressione di prevedere correttamente chi avrebbe raggiunto i turni finali.

Un processo decisionale di natura statistica avrebbe di certo aiutato per il tabellone maschile, ma sarebbe risultato un disastro in quello femminile, dopo che per la prima volta nella storia degli Slam è stata una giocatrice proveniente dalle qualificazioni a vincere il titolo. È un crudo monito al fatto la qualità di una strategia previsionale non può essere valutata su un singolo tentativo e che lasciarsi spazio per qualche risultato a sorpresa potrebbe, alla lunga, favorire la scelta di una formazione più solida. ◼︎

Winning the Fantasy Game

DELLO STESSO AUTORE