
Toulouse a une avance en matière de data
Mathieu Bodmer (directeur sportif du HAC), sur le plateau du Club des 5 du 9 juin 2023.
Depuis le rachat du TéFéCé par RedBird à la veille de la saison 2020-2021, une nouvelle manière de chercher des talents voit le jour dans le club de la ville rose : la Data. Ce terme issu de l’anglais signifie « données » dans le domaine informatique.
Sur la base d’un plan de jeu basé sur l’offensive, les datas collectées sont tournées vers cette projection afin que le joueur ciblé puisse, sans trop de peine, s’adapter à un nouveau milieu mais où ses compétences intrinsèques s’intègrent parfaitement dans le collectif toulousain. La data est selon Florent Tonniotti (responsable éditorial de Coparena) représente « tous les éléments qu’on peut récolter autour de la performance. Ça peut être des données de matchs ou des données physiques qui servent à l’évaluation d’un joueur, à sa forme sur le terrain et en dehors ».
Nous allons, au cours de cette étude nous intéresser à l’histoire de la Data et voir comment elle est devenue en seulement trois saisons, le cœur de la stratégie de recrutement des « Violets » ?
RedBird est un raccourci pour parler de RedBird Capital Partners, une société de placement, notamment dans le milieu du sport étasunienne qui opère aux Etats-Unis et en Europe. Ce groupe est propriétaire du TéFéCé depuis 2020 avec une stratégie basée sur l’utilisation massive de la data.
Les premières traces de la data dans le monde du sport remonte dans les années 1960 aux Etats-Unis pour le baseball, bien que le terme utilisé soit assez différent car on parlait de Sabermétrie, c’est-à-dire, l’analyse du baseball notamment à l’aide de statistiques.
Depuis cette naissance de la première forme de data. En ce qui concerne le football, cela se développe davantage depuis la fin des années 2000 et voit une accélération dans la seconde moitié des années 2010 avec des sites comme https://understat.com/ ou bien https://football.instatscout.com.
Cette émergence dans le paysage footballistique est repérée très rapidement par les clubs directement et les directeurs data arrivent dans les plus grands clubs du monde. Grâce aux avancées technologiques considérables dans ce monde, les ordinateurs puis les Data Miner peuvent étudier les indicateurs.
Quels sont ces indicateurs ?
Les indicateurs pour étudier le football bien évidemment sont multiples, en ce qui concerne la finition il y a les expected goal (xG) qui analyse une frappe placée à un certain endroit du terrain et qui, avec les données collectées par l’ordinateur en comparant ce tir avec l’ensemble des tirs tentés dans des circonstances similaire et donne un taux de réussite entre 0 et 1.
Cela permet de voir si un joueur ou une équipe surperforme en terme de buts marqués. En effet, un tir n’a jamais un taux de finition de 100% et donc il parait intéressant de connaitre les taux de conversion pour connaitre la véritable efficacité d’un joueur afin de connaitre son niveau et sa forme comparée au niveau moyen dans ces situations de tirs.
Pour les comparaisons, les pénaltys ont un taux de xG de 0,7. Cela veut dire que le tireur dans la moyenne a 70% de convertir son pénalty face au gardien moyen.
Par exemple, le meilleur buteur toutes compétition confondues des « Violets » est le jeune néerlandais Thijs Dallinga. En Ligue 1, il termine avec 12 buts, ses xG sont de 12,99 selon understat. Il a donc « sous performé » sur la saison car il aurait dû marquer un but de plus pour retrouver sa data dans ce cas-là.
De même pour les xA, c’est-à-dire, les expected assist donc les statistiques pour connaitre le nombre de passes décisives que chaque joueur devrait distribuer.
Aboukhlal termine avec 10 buts et 5 passes décisives en Ligue 1 mais ses xG sont de 14,67, il sous performe donc en ce qui concerne ses buts, néanmoins, il surperforme nettement en passes décisive car il a 3,11 xA. C’est donc un cas assez intéressant, où les stats avancées permettent de relativiser son importance en attaque. Aboukhlal, d’apres ces données est un ailier faux pied (gaucher sur le côté droit majoritairement) qui tente beaucoup mais avec un taux de conversion assez faible mais qui quand il distribue, arrive à faire performer ses coéquipiers.
Des data sont aussi utilisées pour connaitre les zones d’attaques préférentiels des équipes, en ce qui concerne le TéFéCé, on attaque beaucoup sur les côtés notamment le droit (43%) pour avancer. C’est la raison pour laquelle, les recruteurs et le responsable data Julien Dumeaux s’intéresse au recrutement de latéraux surtout portés vers l’avant avec Suazo, Kamanzi, Desler qui sont précieux dans ce domaine. Ainsi la volonté d’avoir une identité définie et des capacités d’analyses permettant aux joueurs de s’intégrer dans le projet collectif et créer des surnombres en phases offensives.
La data fonctionne grâce à une multitude d’acteurs, les entreprises collectent les données des matchs avant de les transmettre aux clubs qui, grâce aux données et au projet mis en place choisissent des joueurs en fonctions de ses statistiques avancées. Au cours de la conférence « La Data, au cœur de la performance : analyse, protection, enjeux et perspectives ».
Jérémy Chéradame responsable data de la Fédération Française de Rugby, qui a pour mission « d’optimiser les process d’analyse de toutes nos équipes de France [de rugby] […] on essaie d’apporter par la data des arguments pour essayer d’aider les coachs […] dans les process des décisions ». Autrement dit, la data ne sert pas seulement au club, mais elle peut être utilisée aussi dans un cercle fermé pour savoir quels joueurs sont les plus performants pour un match avec une certaine adversité. De nos jours, la data est de plus en plus acceptée par les staffs et les joueurs, c’est un outil évidemment particulièrement pratique car le sport et le football notamment restent basés sur des rapports humains mais où il les sciences « brutes » ont aussi leur mot à dire en terme de performance.
Les projets sont construits avec ces données, comment utiliser et comment elles s’adaptent dans différents contextes de jeux. La base reste le jeu donc, comment l’équipe attaque, défend, joue les transitions, choisit-elle de contre-presser ou non à la perte de balle ? le choix des joueurs et des données varie donc en fonction du contexte dans lequel le joueur va se retrouver. Ainsi, les data nomment des joueurs qui évoluent dans un contexte similaire à l’équipe visée pour que les chiffres avancées puissent concorder avec ce que l’on voit du joueur.
Par exemple, en ce qui concerne Suazo, ce choix s’explique par la volonté collective de jouer l’offensive, d’où le fait de prendre un latéral qui avec le ballon se retrouve être parmi les meilleurs mais en phase défensive est davantage en difficulté.
Selon Gaultier Kertudo, avocat associé et directeur du département droit du sport, met en avant l’idée que sur les données de performance et où « il ne faut pas tout mélanger dans la présentation et bien distinguer ce qui va relever de la pure performance et des donnéees personnelles ». Ces données sont protégées juridiquement, il y a donc un filtre où certaines d’entre-elles sont sécurisées. Dans le sport, il y a donc un texte de droit commun et qu’il faut l’adapter aux différents cas de chaque sport. Effectivement, le rugby, le handball, le volleyball et le football ne s’intéressent pas aux mêmes domaines de performance chez un individu.
Evidemment, comme tout modèle scientifique, mathématique et humain les datas ont des limites. Hughes Sionis, journaliste l’Equipe a publié un article le 12 novembre 2022 nommé « Les limites de la data ». Bien que ce modèle fait ses preuves, celle-ci n’est pas parfaite évidemment. Beaucoup de critères sont « hors modèle » rappelle l’ancien attaquant du TéFéCé Cédric Fauré qui rappelle que cette science n’est pas une « science exacte » et que comme tous modele de recrutement, il y aura des ratés, c’est normal. Néanmoins, il faut aussi faire en sorte, et les datas le permettent selon moi, de diminuer le nombre ce nombre en faisant ces entretiens et présenter les projets les plus objectivement possibles.
Aussi regarder le profil des joueurs en les intégrant dans un projet collectif permet une acclimatation plus rapide bien qu’aucune donnée ne mettent en avant la capacité d’un joueur à s’intégrer dans un nouveau contexte avec de nouveaux coéquipiers, une nouvelle culture, un autre championnat qui est particulièrement intense. Tous ces éléments incalculable, le TéFéCé est au courant, et essaie de couvrir ces champs via des entretiens individuels avec les joueurs. Damien Comolli répète lors de ses différentes conférences de presse et interviews qu’il recrute des « hommes avant des joueurs ».
Aussi, il faut rappeler que le club a l’un des plus petit budget du championnat donc la qualité intrinsèque des joueurs reste limité et peut difficilement rivaliser avec de plus gros clubs et prolonger les contrats lorsque ces joueurs sont révélés est beaucoup plus compliqué à cause de ces masses salariales limitées.
C’est en cela que la data est aussi remarquable, le TéFéCé a le 19e budget du championnat mais en utilisant cet argent intelligemment, on peut surperformer au niveau des résultats. Ainsi, la connexion puissance financière et attractive par le fait est limitée par cette surperformance sportive. En revendant les joueurs ou en les laissant libre, le club fait donc de la plus-value et se rend de plus en plus attractif. Si on est recruté par le TéFéCé, on a quelque chose en plus peuvent se dire un certain nombre de joueurs, ce qui le met en confiance.
Enfin, la dernière limite est au niveau des projections. Il faut trouver le bon équilibre entre une saison réussie et une saison où les objectifs ont été remplis. En effet, le club se doit au début de la saison, faire une projection, la saison passée, l’objectif était être 11e, les expected points aussi disaient que nous devions être 11e, or on termine 13e à trois points de la place souhaitée. Peut- être que cela a en effet été vu comme une sous performance légitime pour nuancer la saison et remercier Montanier sur les travaux accomplis depuis deux saisons, ou bien est-ce la limite de cet effectif et c’est la raison pour laquelle on change l’équipe afin d’arriver à la seconde phase de ce projet ambitieux, qui est de se placer dans le top 7 de manière durable d’ici trois à quatre saisons.
Le football et le sport en général reste une science inexacte, chaque donnée doit donc être relativisée car elle s’inscrit dans un contexte particulier nécessairement différent à ce qui est mis en place dans un autre club. Prenons le cas de Dallinga qui met 33 buts en D2 néerlandaise et qui est recruté en Ligue 1 par un promu, il passe à un contexte totalement différent avec un niveau bien plus élevé, il termine donc avec deux fois moins de buts TTC : 18 buts.
Pour le TéFéCé, l’importance de la data n’est pas à négliger ni à voir son intérêt trop grand qu’il ne l’est réellement. Cela reste un outil, qui par définition permet de bâtir quelque chose mais pour cela il faut des matériaux : les données brutes, esseulées ne servent à rien, il faut savoir les manipuler avec prudence et dans un cadre d’analyse circonscrit afin d’éviter les mauvaises pioches. Il est évident que cette manière de travailler est nouveau pour les Violets, il n’empêche, qu’en a peine 3 ans, elle a déjà fait ses preuves, le projet est bien lancé, maintenant faut le confirmer et garder la tête froide car tout modèle à des limites et je crois qu’il est bon de le rappeler afin d’accepter le futur quel qu’il soit.
Bibliographie/filmographie :
https://fr.wikipedia.org/wiki/RedBird_Capital_Partners
https://www.lesviolets.com/actu/le-responsable-data-du-tfc-devoile-toutes-les-facettes-de- son-metier,67678.html
https://www.powerslide.io/blog/data-et- sport#:~:text=Une%20approche%20du%20baseball%20(%20du,la%20data%20est%20deven u%20omnipr%C3%A9sente!
https://www.lebigdata.fr/revolution-football-big-data
https://understat.com/player/10796
https://understat.com/player/10794
https://fr.whoscored.com/Teams/246/Statistics/France-Toulouse
SIONIS, Hugues « Les limites de la data », L’Equipe, Samedi 12 novembre 2022, consulté le 22 juin 2023.