Pubblicato il 24 maggio 2020 su StatsOnTheT – Traduzione di Edoardo Salvati
// La sospensione della stagione tennistica ha lasciato tempo per dedicare attenzione a progetti che normalmente stazionano nel cassetto. In questo articolo, condivido i retroscena del mio tentativo di costruire un database complessivo dei risultati di tutte le partite di singolare che siano mai state giocate nei tornei dello Slam. Grazie a Wikipedia e a settimane di manipolazione dei dati, sono in grado di mostrare la prima analisi su questo blog che ricomprende l’intera storia di competizioni negli Slam, quella delle partite più lunghe di sempre.
Diverse settimane fa ho candidamente inseguito l’idea di raccogliere i dati relativi ai tabelloni di tutti gli Slam dalle pagine di Wikipedia. All’interno del Grand Slam Project di Wikipedia, è possibile trovare una pagina con tutti i risultati di singolare per ogni Slam maschile e femminile, dalla prima partita giocata a Wimbledon 1877 fino alle finali degli Australian Open 2020.
Vi presento Wikidraws
Si è trattato di un lavoro di ricerca ben più arduo di quanto avessi sperato, considerando le variazioni della struttura dei tornei nel corso degli anni e le diverse modalità d’inserimento delle informazioni in ciascuna pagina. Più di una volta ho pensato di gettare la spugna. Di fronte però alle energie profuse dai volontari di Wikipedia non potevo certamente tirarmi indietro, soprattutto in nome della storia del tennis.
Il risultato finale è il database Wikidraws, che contiene sia il codice per andare a fare incetta di dati, sia i sottoinsiemi attuali di dati organizzati per evento. Oltre ai dati di ciascun evento, sono inclusi anche i game vinti da ogni giocatore e i punti dei tiebreak che sono stati giocati. Ho fatto molta fatica ad avvalorare i dati delle partite. In diverse occasioni dal controllo sono emersi errori che, dopo una controverifica, ho sistemato manualmente. Per quanto abbia fiducia nelle informazioni su Wikipedia, ho il sospetto che ci siano ancora in giro errori o incompletezze. Ogni correzione al riguardo è benvenuta.
Viene da chiedersi la necessità di un database come Wikidraws quando c’è già Wikipedia. La ragione principale risiede nel vantaggio di avere i dati accorpati, così da poter fare più interrogazioni simultaneamente ed espandere il raggio d’azione dell’attività investigativa. In molti di certo sanno che il tiebreak escogitato da James Van Alen fu introdotto negli Slam a partire dagli anni ’70. Quanti erano invece al corrente che per diversi anni dalla prima comparsa a Wimbledon, il tiebreak si giocava sul punteggio di 8-8? Ancora, quanti erano a conoscenza che la spinta all’adozione del tiebreak arrivò dalla finale di Wimbledon 1969 tra Pancho Gonzales e Charlie Pasarell, durata ben 112 game?
L’1% delle partite più lunghe per game giocati
Per quanto non l’unico, Wikidraws è un prezioso strumento con cui fare questo tipo di scoperte. Rimanendo in tema di durata della partita, ho composto un grafico che rappresenta l’1% di quelle più lunghe, per numero di game giocati, in campo maschile e femminile in ciascuno Slam. Come referenza, il diagramma a scatola e baffi (boxplot) grigio nel grafico mostra i cinque parametri statistici di riepilogo (valore minimo e massimo, 25esimo percentile, mediana e 75esimo percentile) per i game giocati in tutte le partite completate, mentre i punti verdi rappresentano gli estremi di ogni evento (nella versione originale, è possibile visualizzare i dettagli dell’anno e dei protagonisti puntando il mouse sul grafico, n.d.t.).
IMMAGINE 1 – Distribuzione della partite Slam maschili e femminili per durata in termini di numero di game giocati
Per ogni edizione degli Slam, è chiara la deviazione verso destra nella distribuzione delle partite. È interessante però notare l’alta concentrazione della maggior parte dell’1% di partite dalla durata più estrema. Poche sono arrivate a raggiungere l’eternità di Gonzalez contro Pasarell o di John Isner contro Nicolas Mahut a Wimbledon, e tra quelle che si avvicinano per molte ci si trova prima dell’avvio dell’era Open.
Confronto con le donne
Si possono fare anche validi confronti tra generi. Le partite femminili più lunghe in assoluto non arrivano in ogni caso a un terzo della durata della maratona record tra Isner e Mahut. Però, in anni passati in cui anche le donne hanno adottato il formato al meglio dei cinque set, emerge che molte giocatrici hanno disputato partite identiche in lunghezza al 25% delle più lunghe partite Slam maschili. Nei grafici si distingue anche lo sparuto gruppo di partite con almeno 100 game. Io sono riuscita a contarne solo quattro, di cui tre a Wimbledon e una agli US Open.
Un ringraziamento speciale a Yan Holtz per il codice di elaborazione per il diagramma a scatola e baffi, che è stato il punto di partenza nella costruzione dei grafici dell’articolo. ◼︎