Il più grande archivio italiano di analisi statistiche sul tennis professionistico. Parte di Tennis Abstract

Probabilmente il più grande archivio italiano di analisi statistiche sul tennis professionistico. Parte di Tennis Abstract

Questi giocatori sono simili tra loro?

ULTIMI ARTICOLI

ULTIMI ARTICOLI

Pubblicato il 10 ottobre 2018 su HiddenGameOfTennis – Traduzione di Edoardo Salvati

// Mentre ero alle prese con un’altra indagine che ha richiesto l’estrazione di statistiche cumulate per il circuito maschile, mi sono fermato a riflettere sull’esistenza di due giocatori simili tra loro, o se tutti invece sono diversi nel loro talento, distinguendosi cioè per bravura in determinate aree di gioco. Ci saranno sicuramente molti modi per scoprirlo ma, non essendo l’obiettivo di partenza, volevo comunque usare i dati che avevo già raccolto.

Si tratta di statistiche aggregate dei primi 200 giocatori (alla data del 10 luglio 2018) sul cemento negli ultimi due anni e mezzo, contro avversari la cui classifica non supera il numero 300. Ho eliminato 11 giocatori con meno di 150 game al servizio, perché non sufficientemente rappresentativi in quel tipo d’intervallo.

La costruzione dei sottoinsiemi

Ho suddiviso i giocatori in sottoinsiemi rispetto a ciascuna delle sette seguenti statistiche espresse in percentuale: ace, doppi falli, prime in campo, punti vinti con la prima, punti vinti con la seconda, punti vinti alla risposta sulla prima, punti vinti alla risposta sulla seconda. Ho denominato i sottoinsiemi con lettere comprese tra la A la F e ripartito i giocatori in funzione del loro rendimento rispetto alle statistiche considerate:

  • il sottoinsieme A per giocatori con una deviazione standard dalla media maggiore di 1.5
  • il B con una tra 1.5 e 0.5
  • il C con una tra 0.5 e -0.5
  • il D con una tra -0.5 e -1.5
  • e il sottoinsieme F per giocatori con una deviazione standard dalla media maggiore di -1.5

(in molti dei sottoinsiemi, le statistiche dei giocatori non sono distribuite secondo una normale, quindi non abbiamo una gaussiana dalla forma simmetrica. In particolare, la percentuale di ace, di doppi falli, di prime in campo e di punti vinti alla risposta sulla seconda sono decisamente non lineari. Quello della percentuale di ace è un caso limite vista la presenza di un numero straordinario di artisti dell’ace, e solo Yoshihito Nishioka è incredibilmente peggiore della media).

In tutte le categorie tranne la percentuale di doppi falli, i valori più alti hanno determinato una A e quelli più bassi una F.

L’associazione dei sottoinsiemi

Con un metodo decisamente elementare, ho accostato le lettere che definiscono i sottoinsiemi per verificare eventuali somiglianze tra giocatori in termini di stile o rendimento. Ad esempio, John Isner rientra nella A per tutte le categorie relative al servizio, tranne le B nella percentuale di doppi falli, e nella F per le due categorie alla risposta. Seguendo il precedente ordine, Isner diventa ABAAAFF. Ci sono altri giocatori tra i primi 200 con una sequenza di ABAAAFF sul cemento? Nessuno!

Anzi, di 189 giocatori, solo 10 hanno la stessa sequenza di un altro giocatore e non ci sono tre giocatori che ne condividano una. La tabella elenca i giocatori con una sequenza in comune (tra parentesi).

Fritz - Bedene (BBDBCCC)
Tiafoe - Mayer (CCCCBCC)
Munar - Medvedev (CCCCCBB)
Mahut - Cuevas (CCCCCCD)
Millman - Nishikori (DBCCBBB)
Kohlschreiber - Kecmanovic (DBCCBCC)
Maden - Simon (DBCDCBA)
Jung - Ito (DCBDDBC)
Fabbiano - Albot (DCBFCBB)
Schwartzman - Majchrzak (DCCDCBA)

Degli strani accoppiamenti, eh? Se si includessero parametri come l’altezza o l’età, la maggior parte di questi giocatori verrebbe immediatamente separata. Non penso che quello di John Millman e Kei Nishikori sia un accostamento terribile in termini di stile, anche se è chiaro che non possiedono lo stesso talento (o, almeno, lo stesso rendimento). La coppia formata da Jaume Munar e Daniil Medvedev è assurda.

Parte della ragione di accoppiamenti così inusuali è legata alla presenza di soli cinque sottoinsiemi. Questo determina che un giocatore possa condividere il sottoinsieme di una determinata statistica con un altro giocatore, rispetto al quale però abbia poi un rendimento significativamente migliore, o peggiore. È un circuito dai margini ridotti. Ad esempio, Aljaz Bedene e Taylor Fritz sono molto ravvicinati in tutte le statistiche tranne una, i punti vinti alla risposta sulla prima, nella quale Bedene ha un valore più alto di 1.3% (pur rimanendo nello stesso sottoinsieme). Può sembrare poco, ma è una differenza importante dal punto di vista dei risultati. Non lo è però nello stile, anche se si trovano in due momenti della carriera decisamente diversi.

Normalizzare per il livello di competizione

Un aspetto più importante che spiega la stranezza di questi accoppiamenti è la differenza nel tipo di competizione affrontata. In altre parole, le statistiche della partita sono modellate non solo dalla bravura di un giocatore ma anche da quella dell’avversario. Prendiamo di nuovo Bedene e Fritz. Per quanto abbiano in ogni sottoinsieme un rendimento simile (solitamente, molto simile) la classifica media degli avversari di Bedene sul cemento negli ultimi due anni e mezzo è circa 88, contro 114 per gli avversari di Fritz. La classifica non è la definizione ultima della qualità di un avversario, ma tra 88 e 114 c’è una differenza notevole. Tranne che per Jung – Ito, il divario tra classifiche degli avversari in ciascuna coppia è enorme, con la massima distanza in Schwartzman – Majchrzak e Kohlschreiber – Kecmanovic.

Sarebbe interessante poter normalizzare le statistiche per verificarne il valore contro un avversario comune, per poi ricreare i sottoinsiemi e ripartire nuovamente i giocatori. Nessuno dei modi in cui ipotizzo si possa fare questo passaggio è di facile applicazione, ma ho proceduto ai fini di quest’analisi come segue.

Tipicamente, quando si vuole normalizzare una statistica nello sport, si considera il contesto di riferimento (nel baseball ad esempio, è il caso degli stadi o dei campionati, specialmente nel confronto fra epoche). Nel tennis, estrapolare il contesto è abbastanza difficile. Si può iniziare considerando solo una specifica superficie, sorge poi però il problema del “campionato” inteso in senso più ampio. Sulla carta, le partite riguardano avversari dell’intero universo tennistico.

Combinazioni uniche di giocatori

Nella realtà, per ciascuna finestra temporale, ogni giocatore affronta una combinazione unica di colleghi. Un campione di dati che include le partite dei primi 200 solo contro i primi 300 è di aiuto, ma in due anni e mezzo sul cemento, ogni giocatore dei primi 200 con un numero di partite rilevanti su questa superficie gioca all’incirca contro 50 giocatori dei primi 300, spesso molti di meno. Detto altrimenti, ogni giocatore fa un campionato a sé con un livello di qualità differente.

Il metodo di normalizzazione quindi (almeno per ora) è di stabilire gli avversari di un giocatore nei due anni e mezzo di partite sul cemento, calcolare la loro media cumulata (ponderata) in ciascuna statistica contro i primi 300 e confrontarla con la relativa media complessiva per i primi 200. Dovremmo così arrivare a conoscere il grado di bravura dell’universo di avversari di un giocatore – relativamente alla media per ciascuna statistica dei primi 200 – le cui variazioni positive o negative dalla media complessiva servono per correggere i valori della specifica statistica per il giocatore che stiamo studiando.

Ad esempio, se l’universo di avversari di Fritz è migliore della media nella percentuale di punti vinti alla risposta sulla prima di servizio, possiamo aumentare la sua percentuale di punti vinti sulla prima (la corrispondente statistica) a simulazione di quanto avrebbe ottenuto contro un avversario medio.

Opposizione tra statistiche

In questa sede ho tralasciato la percentuale di doppi falli e le prime in campo. Sono infatti entrambe statistiche su cui dovrebbe incidere la bravura alla risposta dell’avversario ma, a differenza degli altri cinque sottoinsiemi, non esiste una statistica direttamente opposta da rendere il calcolo relativamente agile. Alla percentuale di ace si oppone la percentuale di ace dell’avversario, alla percentuale di punti vinti sulla prima o sulla seconda si oppone la percentuale di punti vinti alla risposta sulla prima o sulla seconda dell’avversario, alla percentuale di punti vinti alla risposta sulla prima o sulla seconda si oppone la percentuale di punti vinti sulla prima o sulla seconda dell’avversario. Non so dire quantitativamente quanto la bravura dell’avversario alla risposta incida sulla percentuale di doppi falli e di prime in campo.

Dopo aver ricostruito i sottoinsiemi con le statistiche normalizzate, si ottengono 11 accoppiamenti di giocatori simili, tra cui un’occorrenza di tre giocatori simili tra loro, come mostrato nella tabella (tra parentesi, la sequenza).

Kecmanovic - Donskoy (CBCCBDC)
Smyczek - Fratangelo (CBCDCCC)
Fritz - Lacko - Seppi (CBDBCCC)
Kudla - Munar (CCCCCCB)
Tiafoe - Mayer (CCCCCCC)
Rosol - Barrere (CCCCDDC)
Novak - Mmoh (CDBDDCC)
Carreno Busta - Pella (DBBDBCB)
Maden - Mannarino (DBCDCBB)
Dzumhur - Albot (DCBFCBB)
Basilashvili - Koepfer (DDCDCCC)

Ammetto di non conoscere così bene tutti questi giocatori da poter dire ad esempio se Barrere ha uno stile in realtà dissimile a quello di Rosol ma, generalmente, la normalizzazione restituisce un elenco molto più ragionevole del precedente. Anzi, ci sono un paio di accostamenti davvero validi, tra cui Smyczek – Fratangelo, Fritz – Lacko – Seppi, Kudla – Munar e Novak – Mmoh. Non sembrano esserci coppie apertamente prive di senso, anche se Basilashvili è indirizzato verso il divorzio da Koepfer.

Noterete che solo una coppia sopravvive alla normalizzazione, cioè quella formata da Frances Tiafoe e Leonardo Mayer. Continua a essere strano saperli accostati in questo modo, ma le loro statistiche normalizzate sono più vicine di quelle non normalizzate, quindi non dipende solo dal fatto che rientrano nel sottoinsieme medio in tutte le statistiche considerate.

Indici di somiglianza

Spesso ho desiderato creare indici di somiglianza alla Bill James, trovando la difficoltà scoraggiante. Quelli di James per i giocatori baseball erano abbastanza chiari perché basati su statistiche non normalizzate. Lo stesso metodo nel tennis richiederebbe solo un aggiustamento dei punti associati alle differenze tra giocatori in varie statistiche. Ritengo però che non sia un sistema efficace. Ricordo di aver generato (molti anni fa) un foglio di calcolo che usava statistiche dei giocatori di baseball normalizzate per epoca e stadio, per poi applicare gli indici di somiglianza.

È invitante fare lo stesso nel tennis, ma la parte relativa alla normalizzazione è ben più complicata, per le ragioni di cui ho parlato. Essenzialmente, ogni giocatore è nel suo personale campionato. E il procedimento qui usato, molto noioso nonostante la semplicità, si riferisce solo a due anni e mezzo di partite, non alla durata di una carriera. Ma si può continuare a sognare. ◼︎

Are these ATP players similar?

DELLO STESSO AUTORE