Les courses et les data (épisode 3/3)
Les courses de New York au grand galop sur la data
Joe Appelbaum est le président de la New York Thoroughbred Horsemen’s Association (Nytha)… et cet ancien coach de football américain est aussi un grand passionné de données ! Ces dernières années, plusieurs initiatives ont été menées par les courses de New York autour de l’utilisation des datas : gestion des pistes, séduire de nouveaux fans, prévenir les blessures… Les données ont beaucoup d’atouts.
De coach de football à acteur des courses grâce à un beau pari
Le sujet des données fait son chemin aux États-Unis. Il n’est pas anodin que, lors de la traditionnelle table ronde organisée début août par le Jockey Club, l’intervenant principal soit Michael Lopez, directeur senior du département data et analyses de la National Football League (N.F.L.) – la ligue de football américain. Joe Appelbaum vient de ce milieu et nous a expliqué son arrivée dans les courses : « J’étais fan des courses. Avec un groupe d’amis, nous avions l’habitude de passer nos étés à Belmont et Saratoga. En 2001, nous avons remporté un Pick 6 [un pari vertical, ndlr] pour plus de 100.000 $ et, avec une partie de cette somme, nous avons réclamé un cheval. Nous sommes aussi rentrés dans le milieu, puis j’ai fait un peu de pinhooking, élevage et préparation de chevaux pour les courses. » Joe Appelbaum a, grâce à un joli pari, réalisé une sacrée reconversion. Son ancienne activité n’est pas anodine dans sa passion des data : « J’ai été coach dans le football américain et, quand j’exerçais cette activité, je voulais toujours plus de data, pour mesurer l’impact de ce que nous faisions. Je n’en avais jamais assez et nous avions du mal à en trouver plus. Je pense que ce n’est plus le cas dans le football américain, les équipes sont blindées de données. Le défi est, désormais, de leur donner du sens. »
Joe Appelbaum est devenu président de la Nytha en 2017. L’envie de se concentrer sur les data est arrivée au fur et à mesure : « Ce n’était pas dans mon esprit au départ mais, durant ces trois dernières années, c’est la chose la plus importante sur laquelle j’ai travaillée. Parfois, c’est difficile à expliquer car les gens travaillent dans l’instant présent mais, pour la viabilité sur le long terme du sport, collecter et utiliser les data est d’une importance capitale. Nous avons beaucoup de data dans les courses hippiques, mais nous ne les utilisons guère que pour des temps fractionnels superficiels. Il y a beaucoup plus à faire mais pour cela, il faut les centraliser, les analyser et les comparer. Dans la plupart des autres sports, les avancements les plus importants sur les analyses ont été réalisés par des passionnés qui avaient récupéré les data. » C’est là qu’intervient le Big Data Derby, organisé par la Nytha avec la New York Racing Association (Nyra).
Un Derby de « dada data »
Le lien entre les courses et le football américain se resserre encore : sur le modèle du Big Data Bowl (référence au Super Bowl) de la N.F.L., les courses de New York ont lancé le Big Data Derby. Le concept est simple : « Le Big Data Derby était une compétition de sciences de données sur Kaggle [une plateforme web interactive qui propose des compétitions d’apprentissage automatique en science des données, ndlr]. Nous avons fourni toutes les données d’informations coordonnées des hippodromes de la Nyra sur l’année 2019 et, tout simplement, nous avons demandé à des scientifiques : « Dites-nous quelque chose sur nos courses ». Nous étions inspirés par le Big Data Bowl et avons principalement copié le modèle. Le Big Data Derby a été un succès immense : plus de cent participants et je dirais que ceux du top 15 étaient assez experts techniquement parlant. Les participants étaient aussi bien des professionnels de la science des données que des passionnés. Beaucoup d’entre eux se sont concentrés sur les impacts des décisions des jockeys et sur l’efficacité des trajectoires, ce qui n’a jamais été discuté dans un cadre analytique. De façon intéressante, des membres de l’équipe gagnante avaient, dans le passé, remporté le Big Data Bowl, ce qui nous indique que la qualité des propositions était particulièrement élevée. Encore plus intéressant : le deuxième a créé une technique simple mais incroyablement efficace pour juger le « track bias » [les portions de piste plus avantageuses que les autres, ndlr] – et c’est un professeur de maths au lycée, pas un professionnel des data. »
Les meilleures études ont été rendues publiques et vous pouvez lire leurs conclusions ici.
L’Europe très en retard
Joe Appelbaum souligne que les courses ont beaucoup de retard dans l’utilisation des données. D’un point de vue européen, nous avons l’impression que les courses américaines font beaucoup plus appel à elles que les européennes, ne serait-ce que par une méthode d’entraînement au chrono, aux fractionnés disponibles pendant la course pour analyser le rythme ou aux outils d’analyse de foulées aussi bien en course que lors, par exemple, des breeze up pour certains acheteurs. Sur ce sujet, il analyse avec franchise : « Les courses européennes en sont encore au Moyen-Âge concernant l’utilisation des data en course et, très franchement, je n’arrive pas à comprendre cette résistance. Les courses américaines sont peut-être plus propices à des basiques ; comme les fractionnés, mais quand vous comparez notre sport à , par exemple, la technologie disponible sur le Tour de France, vous constaterez à quel point il y a du retard. L’adoption de la technologie par les entraînés basés sur les hippodromes de la Nyra est variable : certains ont plongé dedans, d’autres sont plus à leur aise avec leur façon habituelle d’opérer. L’appropriation ne se fera pas du jour au lendemain. »
Les data ont beaucoup d’atouts
La data est partout et ouvre un champ de possibilités incroyable, à condition bien entendu de savoir s’en servir : « Il est clair que la multiplication des données va aider le sport sur l’aspect des paris : cela a été prouvé sur beaucoup de sports partout dans le monde. Cependant, il y a encore plus d’opportunités de développement dans les utilisations de données du côté de l’évaluation des chevaux, de leur bien-être et de leurs performances, ainsi que dans la gestion des pistes. Peut-être que ces données-là ne seront pas aussi profitables financièrement parlant que celles liées au pari mais, par beaucoup d’aspect, les data peuvent aider à évaluer la santé d’un cheval et aider les hippodromes à mettre en place des courses les plus compétitives possibles. »
Le StrideSAFE, un outil pour évaluer les risques d’accidents
La Nyra a lancé un essai sur le capteur StrideSafe, qui a pour but de récolter les données sur les foulées d’un cheval au travail et, en les analysant, détecter s’il pourrait avoir un problème sous-jacent pouvant alerter sur un risque de blessure possiblement catastrophique. Joe Appelbaum explique : « La capacité à prévenir les blessures des athlètes, humains ou équins, est le Saint Graal dans le monde de l’analyse de données sportives. Il est clair que nous sommes encore loin, très loin, d’atteindre ce but. Cependant, il nous faut continuer à essayer. Nous avons beaucoup appris de notre essai sur l’utilisation du StrideSafe. Il y a beaucoup de difficultés à surmonter quand on veut déployer une technologie sur des animaux qui peuvent aller à 65 km/h. De plus, nous avons appris très concrètement que les fondations en place pour progresser dans nos efforts deviendrons des principes de progression scientifique : validations des données, analyses open-source [comprenez ouvertes au monde extérieur, ndlr] et améliorations itératives. » Concrètement : la marge de progrès est certaine et exponentielle, mais on ne trouve pas le Graal d’un claquement de doigts.