Pubblicato il 7 novembre 2019 su betfair | The Hub – Traduzione di Edoardo Salvati
// Dopo aver visto alcuni dei possibili modelli predittivi nel tennis, in questo articolo mi concentro sul sistema di valutazioni Elo che, a questo fine, ha una resa estremamente efficace. In un’analisi di Stephanie Kovalchik su 11 diverse tipologie di modelli (di regressione, basati su situazioni di punteggio o basati su sistemi di classifica), Elo è infatti risultato il migliore, con un’accuratezza previsionale per le partite del circuito maggiore maschile del 70% per il 2014.
Come funziona Elo
Elo assegna una valutazione a ciascun giocatore. Quando due giocatori si scontrano in una partita, la vittoria di uno o dell’altro è espressa in termini probabilistici come differenza delle loro valutazioni Elo. Il calcolo segue questa formula:
pV = 1 / (1 + (10^((Elo avversario – Elo giocatore) / 400))))
Ad esempio, se un giocatore ha una valutazione Elo di 1800 punti e l’avversario una di 2000, la sua probabilità di vittoria è del 24.1%.
In che modo Elo assegna valutazioni ai giocatori? Il calcolo è ricorsivo, e necessita di tenere in considerazione l’intera sequenza di vittorie e sconfitte fino alla partita in questione. Come regola generale, la valutazione Elo di un giocatore alla prima partita è arbitrariamente di 1500 punti. Dopo che due giocatori hanno giocato contro per la prima volta, il risultato è utilizzato per aggiornare la valutazione di entrambi secondo la seguente formula:
eloi [t+1] = eloi [t] + K [risultato – pV]
dove eloi [t+1] è la valutazione Elo aggiornata, eloi [t] è la valutazione Elo prima della partita, K è un fattore che vedremo a breve (per il momento, ipotizziamo che sia costante, ad esempio pari a 32), “risultato” è un’indicazione dell’esito della partita (1 o 0 a seconda della vittoria o sconfitta del giocatore in esame), pV è la probabilità di vittoria del giocatore prima della partita e calcolata secondo la precedente formula.
Se entrambi i giocatori sono alla loro prima partita in assoluto, e quindi con un Elo di 1500, la pV è uguale a 0.5. Questo significa che, con un fattore K di 32, il vincitore guadagna 16 punti e lo sconfitto ne perde 16. Alla loro successiva partita, arriveranno rispettivamente con una valutazione Elo di 1516 punti e di 1484 punti. Aggiornando la valutazione per ogni partita giocata, è possibile calcolare la valutazione Elo attuale.
Il fattore K
Il fattore K determina l’entità della variazione della valutazione Elo a seguito del risultato di una partita. Nell’esempio, il fattore K pari a 32 significa che, al massimo, un giocatore potrebbe perdere 32 punti a fronte di una sconfitta (con probabilità 1 di vittoria pre partita). La maggiore criticità dell’uso di modelli Elo nella pratica è relativa alla scelta del fattore K. Nello studio di Kovalchik, il modello Elo con resa più alta è stato quello ideato dal sito FiveThirtyEight. Invece di essere costante, il valore di K è legato al numero di partite giocate da un giocatore. L’equazione che determina K diventa:
K = c / [M + o]S
dove c è una costante, M è il numero di partite del giocatore nella base dati, o è una compensazione minima (in modo da evitare valori di K molto grandi quando M è basso) e l’esponente S è un parametro di forma della curva, che permette maggiore flessibilità nel determinare la forma della curva. Dopo aver sperimentato varie combinazioni di o, c e S, FiveThirtyEight ha scelto la seguente formula:
K = 250 / [M + 5]0.4.
Il grafico mostra la variazione della curva espressa dal fattore K all’aumentare del numero di partite.
IMMAGINE 1 – Variazione del fattore K all’aumentare del numero di partite, rispetto a un fattore K con valore costante
Ricordiamo che il fattore K è massimo intervallo di aggiornamento delle valutazioni Elo a seguito di ciascuna partita. Con questa impostazione, sono i giocatori con meno partite a ricevere il più ampio aggiornamento della loro valutazione Elo, che sia di segno positivo o negativo.
Poco prima delle 200 partite, il fattore K scende al di sotto del valore costante 32 e cambia di poco fino a circa 400 partite, quando si attesta intorno a 20. Perché può avere senso un valore K legato al numero delle partite giocate? L’idea è che non si ha particolare sicurezza sulla valutazione Elo di un giocatore quando lo si è visto giocare poche volte, lasciando così margine per un aggiornamento più ampio della sua valutazione. Quando invece lo si è visto giocare per centinaia di partite, si ha sicurezza del livello di gioco, ed è più giustificata una variazione ridotta della sua valutazione.
Considerazioni pratiche
Nell’implementare un modello Elo, è importante fare affidamento sul più abbondante campione di partite disponibile. Quando si è trattato di fare previsioni sulle partite ATP del 2014, usare dati relativi che risalivano fino al 1968 (come ad esempio nella pagina GitHub di Jeff Sackmann) ha aumentato la precisione dal 67% al 70%, rispetto a una previsione con dati che consideravano solo l’anno precedente.
Riepilogo
Il sistema di valutazioni Elo possiede un’ottima capacità predittiva. Ad esempio, per gli US Open 2016 ha correttamente previsto il 73.5% delle partite di singolare maschile, non troppo distante dal 76.1% ottenuto dai sistemi che elaborano le quote scommesse. Come detto all’inizio, ha fatto meglio anche di tutti gli altri modelli pubblicamente disponibili per le partite del circuito maggiore maschile del 2014.
È un risultato che può sorprendere perché, dopo tutto, Elo è un modello che prende a riferimento solo vittorie e sconfitte. Non sa nulla infatti dei giocatori coinvolti (ci potrebbe essere un vantaggio competitivo di uno sull’altro), della superficie (alcuni giocatori mostrano di avere preferenze specifiche) o di quanto complicato è stato l’andamento di una partita (una vittoria di misura all’ultimo set ha lo stesso peso di una più facile senza aver perso un set). Alcuni di questi aspetti giustificano la superiorità delle quote scommesse, e un modello Elo che ne comprenda tutti o alcuni potrebbe rappresentare un interessante passo avanti. ◼︎