Pubblicato il 26 settembre 2015 su StatsOnTheT – Traduzione di Edoardo Salvati
// Più volte mi sono lamentata dell’assenza di analisi statistiche nel tennis. Quale evidenza possiedo a suffragio di questa posizione? Per fare chiarezza, un punto di partenza è quello di confrontare il tennis con gli sport che sono all’avanguardia della rivoluzione generata dall’analisi statistica. In questa sede, approfondisco uno degli aspetti in cui il tennis è ritardo rispetto agli altri sport, cioè la mancanza di indicatori statistici per misurare il livello atteso di vittoria o le vittorie attese.
La capacità di stimare il numero di vittorie è spesso considerata il “sacro Graal” delle statistiche sportive. Questo è stato uno dei primi problemi affrontati da Bill James, il padre della sabermetrica e catalizzatore del cambiamento epocale nel baseball ben descritto in Moneyball di Michael Lewis (e poi nell’omonimo film con Brad Pitt). Il contributo maggiore di James, all’inizio della sua carriera, fu quello di individuare una semplice formula per calcolare le vittorie attese per stagione di una squadra, basandosi su una sola misura della forza della squadra: i punti segnati. James introdusse la sua formula nella quinta edizione di Baseball Abstract del 1981 con questa espressione matematica:
%Vitt = RS2 / (RS2+RA2)
dove RS indica il numero dei punti complessivamente segnati da una squadra durante la stagione (runs scored), RA indica il numero di punti concessi (runs allowed) complessivamente durante la stagione. Per via della sua somiglianza al teorema di Pitagora, la formula è conosciuta come vittorie attese pitagoriche (Pythagorean expectation for wins) o formula di Pitagora.
Negli sport di squadra ma non in quelli individuali
Dalla sua introduzione, diverse versioni della formula di Pitagora sono comparse in molti sport principali. La più famosa è probabilmente quella di Ken Pomeroy, utilizzata per valutare le squadre di basket NCAA e diventata la fonte di riferimento per pronosticare il tabellone del March Madness.
Che io sappia, non esiste un’applicazione della formula di Pitagora per gli sport individuali. Nel mio intervento al New England Symposium on Statistics in Sports (NESSIS) del 2015 ad Harvard, ho illustrato il possibile utilizzo della formula di Pitagora nel tennis. La domanda principale a cui ho cercato di dare risposta è questa: esiste una semplice misura delle prestazione che approssimi la relazione pitagorica e sia nel contempo un’accurata misura delle vittorie di un giocatore in una stagione? Sorprendentemente, la risposta è sì!
Coefficiente di adattamento
Quando ho inserito nella seguente enunciazione generale del modello pitagorico:
%Vitt = Xα / (Xα+Yα)
14 tra gli indicatori di prestazione più diffusi nel tennis, utilizzando dati relativi a più di 50.000 partite ATP nel periodo 2004-2014, molti hanno restituito un coefficiente simile al coefficiente pitagorico 2.
Curiosamente, fanno tutti riferimento alle prestazioni in risposta: palle break convertite, opportunità break ottenute, punti vinti in risposta alla prima e alla seconda di servizio (alcuni degli indicatori, come i punti totali vinti in risposta, non sono stati considerati perché sono altamente correlati con uno o più degli altri indicatori calcolati).
IMMAGINE 1 – Coefficienti α per modelli pitagorici di 14 indicatori di prestazione nel tennis
Bontà del modello in termini di risultati
Più significativa del coefficiente di adattamento è la bontà del modello in termini di risultati. L’immagine 2 mostra l’adattamento di ogni possibile modello pitagorico basato su un coefficiente di determinazione (r-quadrato) corretto e su un errore da validazione incrociata di tipo esaustivo (leave-one-out cross validation o LOOCV).
Un r-quadrato del 100% rappresenta il migliore adattamento possibile in quanto attesta che il modello spiega il 100% della variazione nel numero di vittorie. L’errore da validazione incrociata riassume la deviazione predittiva del modello rispetto all’osservazione del campione in una modalità che risulta essere più robusta delle parzialità del campione osservato. Entrambi gli indici mostrano che il modello pitagorico basato sulle palle break convertite è senza alcun dubbio quello con le migliori prestazioni tra i modelli selezionati, in grado di spiegare, con l’errore più basso, l’85% della variazione nel numero di vittorie stagionali di un giocatore.
IMMAGINE 2 – Coefficiente di adattamento per modelli pitagorici di 14 indicatori di prestazione nel tennis
Il modello BP2
È possibile che il modello pitagorico basato sulle palle break, che chiamerò BP2, ottenga risultati impressionanti come quelli dell’immagine 2 perché viene messo a confronto con modelli che sono, nel loro insieme, meno brillanti. Per un test più rappresentativo della validità di BP2 ho confrontato, per le stagioni dal 2004 al 2014, le previsioni di fine stagione del modello basate sulla forza dello stesso a metà stagione con le corrispondenti previsioni percentuali di vittoria di tre alternative: il record di vittorie-sconfitte, un modello multivariato che comprende 11 dei 14 indicatori (tra cui le palle break convertite) e lo stesso modello multivariato con l’aggiunta della classifica relativa del giocatore.
È interessante notare che il record di vittorie-sconfitte ottiene il risultato peggiore, come indicato da un maggior numero di punti disseminati intorno alla retta di regressione, vale a dire più deviazioni dalla relazione lineare. Le previsioni del modello multivariato senza classifica sono le migliori, probabilmente perché parte dell’arbitrarietà associata all’assegnazione dei punti validi per la classifica e alla scelta dei tornei effettuata da ciascun giocatore aggiunge rumore alla versione del modello con classifica del giocatore. Ma BP2 è facilmente paragonabile al modello multivariato, in quanto entrambi restituiscono un errore di ±2 partite su un campione di 50 partite stagionali.
IMMAGINE 3 – Previsioni a metà stagione di BP2 contro tre modelli alternativi
Siamo quindi indotti alla forse ovvia conclusione che la conversione di palle break è importante per vincere una partita di tennis. Ma non è questo l’elemento innovativo. La novità è invece che la formula di BP2 permette l’esatta quantificazione dell’importanza della conversione di palle break, rivelando una somiglianza quasi enigmatica con quella originariamente proposta da James per i punti segnati e le vittorie nel baseball.
Alcune implicazioni: i grafici che evidenziano il dominio di un giocatore
La scoperta di BP2 ha un numero elevato di potenziali implicazioni utili per previsioni e valutazioni sulle prestazioni di un giocatore, troppe in realtà per darne seguito esaustivo in questo articolo. Vorrei segnalare una filone di ricerca che, attraverso BP2, potrebbe migliorare la nostra comprensione degli esiti delle partite di tennis.
Il caso delle poche palle break convertite da Federer
C’è stato un acceso dibattito sul fatto che le poche palle break convertite da Roger Federer nella finale degli US Open 2015 abbiano contribuito alla sconfitta. Con uno sguardo ai precedenti 9 mesi, l’immagine 4 mostra la sequenza temporale delle vittorie attese di Federer nel 2015 e come varia a seguito di ogni vittoria e sconfitta.
IMMAGINE 4 – Vittorie attese di Roger Federer per il 2015 basate su BP2
Il grafico fornisce numerosi spunti di analisi. Escludendo i tornei sulla terra, le maggiori sconfitte di Federer sono state precedute in genere da un aumento della forza di BP2 e una successiva diminuzione. Ogni punto rappresenta le attese di vittoria prima di una partita, quindi il successivo calo rivela che la conversione di palle break è stata verosimilmente un fattore determinante. L’alternanza aumento-diminuzione ci dice anche che Federer si è presentato in finale di diversi tornei (e di due Slam) con un livello di vittoria attesa in crescendo, per poi giocare al di sotto delle attese. Questo è stato particolarmente doloroso per i suoi tifosi nella finale di Wimbledon 2015.
Chiaramente, una sconfitta dipende in definitiva dal livello di vittoria attesa di un giocatore rispetto a quello del suo avversario. Però, il grafico della forza di BP2 specifica per Federer corrobora l’impressione generale, e anche quella di Federer, che la capacità di fare la differenza nei momenti chiave è stata la discriminante delle sue sconfitte negli Slam. Ma mostra anche che Federer, con o senza Slam, ha avuto comunque una stagione spettacolare. ◼︎
Converting Clutch into Wins — A Pythagorean Model for Tennis