Il più grande archivio italiano di analisi statistiche sul tennis professionistico. Parte di Tennis Abstract

Probabilmente il più grande archivio italiano di analisi statistiche sul tennis professionistico. Parte di Tennis Abstract

Elo ai tempi del COVID-19

ULTIMI ARTICOLI

ULTIMI ARTICOLI

Pubblicato il 2 agosto 2020 su TennisAbstract – Traduzione di Edoardo Salvati

// Il tennis è ripartito, ma nessuno sa bene cosa attendersi. Sarà l’imprevedibilità il nuovo paradigma? E questo sia su larga scala — gli US Open 2020 verranno martoriati dal virus? — che nelle situazioni individuali, come ad esempio quali giocatori rientreranno più forti o meno in forma di prima? Lascio agli esperti le considerazioni sul primo aspetto e mi concentro sulla stima del livello di gioco che potranno esprimere giocatori e giocatrici.

Per via delle restrizioni imposte in molti paesi, non c’è professionista che non abbia trascorso almeno cinque mesi lontano da un torneo ufficialmente organizzato dalla ATP, WTA e Federazione internazionale. Per alcuni, come chi non ha giocato nelle settimane precedenti alla chiusura totale o chi ha deciso di non giocare immediatamente alla riapertura, saranno passati sette o otto mesi prima di una partita vera. Le esibizioni hanno in parte colmato quel vuoto, ma non per tutti i giocatori. Stare fermi per metà anno senza competizioni ufficiali rappresenta una lunga interruzione. Dal punto di vista di un analista, è difficile prevedere il rendimento di un giocatore in assenza di dati dagli ultimi sei mesi.

Aumento dell’incertezza

Iniziamo dagli aspetti più evidenti. L’assenza prolungata dal circuito significa che si conosce meno dello stato di forma attuale di un giocatore di quanto non lo si facesse prima della chiusura, quando la maggior parte dei professionisti era impegnata ogni settimana o due. A marzo, le mie valutazioni Elo assegnavano a Dominic Thiem il quinto posto, con un punteggio di circa 2050, mentre David Goffin era al quindicesimo, con circa 1900 punti. Sulla base di quei numeri, in uno scontro diretto Thiem avrebbe avuto una probabilità di vittoria del 70%.

Adesso? Entrambi hanno giocato esibizioni, ma possiamo essere certi che il loro livello sia simile a quello che avevano a marzo? O che sono migliorati o peggiorati nella stessa misura? Penso sia ovvio che non possediamo le stesse certezze. Le previsioni dovrebbero quindi riflettere una diminuzione del grado di confidenza, indirizzandosi su una più candida probabilità da lancio della moneta, vale a dire sul 50%. Sei mesi di sospensione a causa del COVID-19 non sono così drastici, non significa cioè che Thiem non è più il favorito contro Goffin, ma che, rispetto al periodo precedente, il pronostico dovrebbe essere più vicino al 50% di probabilità di vittoria. Magari un 60%? 65%? O 69%? Non riesco a rispondere, almeno, non ancora.

Penalizzazione legata all’assenza (per infortunio)

Le mie valutazioni Elo scontano già una penalizzazione legata all’assenza, di cui ho parlato in questo articolo. L’idea è quella per cui se un giocatore resta lontano dal circuito molto a lungo (di solito per infortunio, ma anche per eventualità come una squalifica, una maternità o altre ragioni), al rientro mostra, nella maggior parte dei casi, un livello di gioco peggiore. È difficile però prevedere di quanto, e ogni giocatore ha un percorso diverso di ritorno alla piena forma.

Ho introdotto quindi una modifica alla formula, sulla base di due componenti:

  • una penalizzazione una tantum in funzione della lunghezza dell’assenza (maggiore la durata, più grande la penalizzazione)
  • un aumento temporaneo del valore del fattore k (l’elemento della formula che determina quanto ciascuna partita incida sulla variazione positiva o negativa del livello di gioco di un giocatore), per riflettere l’incertezza iniziale. Dopo un infortunio, il fattore k aumenta di poco di più del 50%, per poi regredire al valore tipico nell’arco delle venti successive partite.

Non è un infortunio

Fermarsi per sei mesi a causa del coronavirus non è equiparabile a un infortunio (almeno, non per quei giocatori che sono comunque riusciti ad allenarsi per aver evitato il COVID-19 o altre problematiche di salute collegate). L’algoritmo di penalizzazione per infortunio non può quindi essere applicato così come è pensato, ma se ne possono trarre due considerazioni:

  • se generiamo previsioni più vicine al 50% di probabilità abbassando la valutazione di alcuni giocatori, la penalizzazione dovrebbe essere inferiore alla penalizzazione per infortunio (normalmente, per un assenza durante la stagione di otto o nove settimane, la penalizzazione minima per infortunio è di 100 punti Elo).
  • l’aumento temporaneo del fattore k è uno strumento utile per gestire l’incertezza che si accompagna allo stato di forma di un giocatore dopo una lunga interruzione.

Il metodo della penalizzazione per assenza funziona perché è supportato dai dati. Siamo in grado di analizzare centinaia di assenze per infortunio (o per altri fattori) nella storia del tennis moderno e capire come hanno reso i giocatori al loro rientro sul circuito. I numeri che utilizzo nella formula per le valutazioni Elo si basano proprio su questo. Purtroppo però non abbiamo la stessa disponibilità per gli ultimi sei mesi, perché quello che è successo non ha precedenti.

Non la pausa di fine stagione, ma…

La situazione che più si avvicina a un blocco di sei mesi nel flusso di dati relativi al tennis è la pausa di fine stagione a dicembre. Per quanto decisamente più breve e non uguale per tutti, presenta alcune dinamiche molto simili: ci sono giocatori che si cimentano in esibizioni, altri che si riposano in spiaggia, alcuni che approfittano per guarire da infortuni, altri ancora che si allenano duramente per migliorarsi, e così via.

Verifichiamo questa teoria: le prime settimane di ogni stagione dovrebbero essere meno pronosticabili della media. Controllo: è falso! Per gli anni dal 2010 al 2019, ho assegnato un’etichetta a ogni partita rispetto a quante partite i due giocatori avevano giocato fino a quel momento della stagione. Se si trattava della prima partita per entrambi, l’etichetta era il numero 1. Se era la quindicesima per uno e la ventunesima per l’altro, il numero era la media, quindi 18. Ho poi calcolato l’indice Brier — una misura dell’accuratezza delle previsioni — per le previsioni generate da Elo di tutte le partite con un’etichetta. Minore il valore dell’indice, migliore la previsione. Se avessi ragione, dovremmo vedere l’indice Brier più alto per le prime partite della stagione, seguito da una diminuzione. Non è esattamente così!

IMMAGINE 1 – Indice Brier per singola partita del circuito maschile nel periodo dal 2010 al 2019

La linea blu irregolare del grafico mostra l’indice Brier per ogni partita con etichetta (partita 1, partita 2, partita 23, etc), mentre la linea arancione è una media mobile di cinque partite che punta a rappresentare la tendenza complessiva. Non c’è una differenza enorme durante la stagione (ed è confortante), ma la dinamica di inizio stagione è opposta alla mia ipotesi. Magari per le donne il risultato è più in linea con le mie attese?

IMMAGINE 2 – Indice Brier per singola partita del circuito femminile nel periodo dal 2010 al 2019

Non sono fortunato nemmeno in questo caso. Anche per le donne la variazione partita per partita nell’accuratezza delle previsioni è abbastanza ridotta, e non ci sono segnali di incertezza di inizio stagione.

Ma non mi fermo qui

Anche se la mia stessa teoria non regge l’evidenza dei fatti, mi aspetto comunque di assistere, alla ripresa successiva alla pandemia, a un paio di mesi imprevedibili. I giocatori sono abituati a gestire la normale interruzione di fine stagione e generalmente efficienti nel usare al meglio il tempo libero. E poi sono due mesi e non cinque o sette. Inoltre, molti altri fattori richiederanno adattamento sul circuito — quantomeno per la conclusione del 2020 — come i pochi spettatori (se ce ne saranno), il protocollo di distanziamento e un calendario in continuo aggiustamento. Alcuni giocatori gestiranno la pressione meglio di altri, ma non è detto che tra questi ci siano necessariamente i più forti.

Per il momento quindi le mie valutazioni Elo terranno conto di una piccola penalizzazione, aumentando temporaneamente il fattore k (più vicino al 69% per Thiem contro Goffin, che al 60%). Non ho ancora finito di scrivere il codice completo, principalmente perché devo considerare due diversi tipi di assenze, COVID-19 da una parte e i canonici infortuni dall’altra, ed è più complesso. Per chi è più interessato, farò qualche modifica prima dell’inizio previsto per il Cincinnati Masters

C’è una risposta giusta

Non ci sono dubbi da queste parole che il mio tentativo di sistemare le valutazioni Elo in modo da riflettere l’interruzione dovuta al COVID-19 procede un po’ al buio. Ma non sarà sempre così! Verso la fine dell’anno, conosceremo la risposta, cioè quanta imprevedibilità avrà caratterizzato i risultati delle prime partite al rientro dalla chiusura. Così come sono riuscito a calcolare gli aggiustamenti da apportare per penalizzazioni e fattore k grazie ai dati storici, potrò fare la stessa cosa per i risultati della seconda parte del 2020.

Più precisamente, sarà possibile creare insiemi di risposte giuste, perché una correzione alla formula Elo restituirà il miglior valore dell’indice Brier, mentre un’altra rappresenterà con più esattezza il divario tra Novak Djokovic e Rafael Nadal, e così via per i vari spunti d’indagine.
L’aggiustamento finale per la formula Elo ai tempi del COVID-19 non vi aiuterà a vincere più soldi scommettendo sul tennis, ma fornirà una maggiore comprensione di come l’interruzione ha inciso sul livello dei giocatori, e su quanto velocemente sono ritornati alla forma di inizio anno. Ne sapremo un po’ di più sul tennis, anche se la speranza assoluta è di non dover mai più fare uso di questa nuova conoscenza. ◼︎

Elo, Meet COVID-19

DELLO STESSO AUTORE