paint-brush
Inscrivez-vous au jeu : l'IA peut-elle rendre les flux sportifs accessibles ?par@degravia
251 lectures

Inscrivez-vous au jeu : l'IA peut-elle rendre les flux sportifs accessibles ?

par Roman Garin7m2023/09/19
Read on Terminal Reader

Trop long; Pour lire

Traduire en langues des signes en temps réel est une tâche délicate, même pour des interprètes humains. Utiliser l’IA pour résoudre ce problème est un défi très intéressant.
featured image - Inscrivez-vous au jeu : l'IA peut-elle rendre les flux sportifs accessibles ?
Roman Garin HackerNoon profile picture
0-item

Le 23 septembre est la Journée internationale des langues des signes , proclamée par les Nations Unies en 2017. Cette date est une bonne occasion de rêver (ou peut-être de se fixer un objectif) qu'un jour viendra où tous les produits médiatiques et technologiques seront également accessibles par tous. toutes les personnes, quel que soit leur handicap. Je rêve qu’un jour, toutes les personnes sourdes puissent regarder des retransmissions sportives en direct. Traduire en langues des signes en temps réel est une tâche délicate, même pour des interprètes humains. Mais comme il y a trop peu d’interprètes qualifiés et tant de langues des signes différentes, les flux sportifs ne peuvent pas devenir véritablement universellement accessibles pour le moment. Utiliser l’intelligence artificielle (IA) pour résoudre ce problème est un défi technique très intéressant et certainement une très bonne cause. Beaucoup a été fait dans ce domaine ces dernières années, mais des obstacles persistent. Dans cet article, je vous propose un aperçu des dernières technologies dédiées à cet objectif et vous invite à discuter de ces découvertes et à contribuer à résoudre cette énigme.

Le sport n'est pas pour tout le monde ?

Le sport est roi, point final. Depuis les premiers Jeux olympiques antiques (et probablement même avant), cela a contribué à transformer la part compétitive de la nature humaine en formes non-violentes. Il rassemble des millions de personnes à travers le monde et au-delà des frontières politiques. C’est également le maître de l’univers numérique et médiatique moderne. Selon Recherche et marchés, le marché mondial du sport est passé de 486,61 milliards de dollars en 2022 à 512,14 milliards de dollars en 2023, à un taux de croissance annuel composé (TCAC) de 5,2 %. Le marché du sport devrait encore croître pour atteindre 623,63 milliards de dollars en 2027, avec un TCAC de 5,0 %. C'est bien plus rapide que la croissance de l'économie mondiale, qui devrait passer d'environ 3,5 % en 2022 à 3,0 % en 2023 et 2024, selon le rapport. Fond monétaire international . Le marché mondial du streaming sportif vidéo en direct en ligne était à lui seul évalué à 18,11 milliards de dollars en 2020 et devrait pour atteindre 87,33 milliards de dollars en 2028. Illustrant encore davantage la popularité du sport, un rapport de 2022 rapport de Nielsen Sports a révélé que 31 % des revenus publicitaires de la télévision linéaire aux États-Unis dépendent des programmes sportifs en direct, alors que les sports ne représentent que 2,7 % du contenu des programmes diffusés disponibles.


Cependant, cette immense industrie manque (en partie ou entièrement) d’une partie importante de la population mondiale. L'ONU les données suggèrent qu'il y a 70 millions de personnes sourdes dans le monde, ce qui représente un peu moins de 10 % des 8,05 milliards d'habitants de la Terre. Le problème progresse : l’Organisation mondiale de la santé prévoit que d’ici 2050, 2,5 milliards de personnes (soit environ un quart de la population humaine) souffriront d’un certain degré de perte auditive. Bien entendu, de nombreuses retransmissions sportives sont sous-titrées. Mais le problème est que de nombreuses personnes sourdes ont des difficultés à apprendre à lire et à écrire. Dans la plupart des pays, le taux d'analphabétisme des sourds est supérieur à 75 % , un taux vraiment ahurissant. De nombreuses émissions, notamment à la télévision, disposent d'interprètes en langue des signes en direct. Mais là encore, il y a un problème. Les personnes sourdes du monde entier utilisent plus de 300 langues des signes différentes et la plupart d’entre elles sont mutuellement inintelligibles. Il est évidemment impossible d’embaucher 300 interprètes pour rendre une émission accessible à l’échelle mondiale. Mais et si nous embauchions plutôt une IA ?

Signe (langage) de la vie

Pour bien comprendre la difficulté de cette tâche, penchons-nous brièvement sur ce que sont réellement les langues des signes. Historiquement, ils étaient souvent utilisés comme lingua franca par des personnes dotées d’une audition normale, mais parlant des langues différentes. L'exemple le plus connu est la langue des signes du Indiens des plaines en Amérique du Nord au XIXe siècle. Les langues des différentes tribus étaient différentes, mais leur mode de vie et leur environnement étaient assez proches, ce qui les aidait à trouver des symboles communs. Par exemple, un cercle dessiné sur le ciel signifiait la lune, ou quelque chose d’aussi pâle que la lune. Des moyens de communication similaires étaient utilisés par les tribus d’Afrique et d’Australie.


Or, ce n’est pas le cas des langues des signes utilisées par les sourds. Ils se sont développés indépendamment dans chaque région, pays et parfois même diffèrent d’une ville à l’autre. Par exemple, la langue des signes américaine (ASL), largement utilisée aux États-Unis, est totalement différente de la langue des signes britannique, même si les deux pays parlent anglais. Ironiquement, l'ASL est beaucoup plus proche de l’ancienne langue des signes française (LSF) car un sourd français, Laurent Clerc, fut l'un des premiers enseignants pour sourds aux États-Unis au XIXe siècle. Contrairement à une idée reçue, il n’existe pas de véritable langue des signes internationale. Une tentative d'en créer un a été Gestuno, désormais connue sous le nom de langue des signes internationale , conçu par la Fédération Internationale des Sourds en 1951. Cependant, tout comme son analogue pour les entendants, l'espéranto, il est loin d'être aussi populaire pour devenir une véritable solution.


Une autre chose importante à garder à l’esprit lorsqu’on parle de traductions en langues des signes est qu’il s’agit de langues indépendantes, complètement différentes des langues que nous pouvons entendre. Une idée fausse très répandue est que les langues des signes imitent celles parlées par l'audience. Au contraire, ils ont une structure linguistique, une grammaire et une syntaxe totalement différentes. Par exemple, l'ASL a une syntaxe sujet-commentaire, tandis que l'anglais utilise des constructions sujet-objet-verbe. Donc, en termes de syntaxe, ASL en fait partage davantage avec le japonais parlé qu'avec l'anglais. Il existe des alphabets de signes (en savoir plus à leur sujet ici ), mais ils servent à épeler des noms propres de lieux et de personnes, pas à composer des mots.

Briser les barrières

Il y a eu de nombreuses tentatives pour relier les langues parlées et des signes utiliser des « gants robotiques » pour la reconnaissance des gestes. Certains d’entre eux datent des années 1980. Au fil du temps, des gadgets plus sophistiqués ont été ajoutés, comme des accéléromètres et toutes sortes de capteurs. Cependant, le succès de ces tentatives étaient au mieux limités . Et de toute façon, la plupart d’entre eux se sont concentrés sur la traduction des langues des signes en langues parlées, et non l’inverse. Les développements récents dans les domaines de la vision par ordinateur, de la reconnaissance vocale, des réseaux neuronaux, de l’apprentissage automatique et de l’IA laissent espérer qu’une traduction directe de la langue parlée vers la langue des signes soit également possible.


La voie la plus courante consiste à utiliser des avatars 3D pour afficher des gestes et des émotions en langue des signes, en utilisant la parole et d'autres données comme entrée. Une particularité notable développé par NHK Une société de radiodiffusion japonaise permet de traduire des données sportives, telles que les noms des joueurs, les scores, etc., en langue des signes affichée par un avatar ressemblant à un dessin animé. Les données reçues des organisateurs de l'événement ou d'autres entités sont interprétées et mises dans des modèles puis exprimées par l'avatar. Cependant, seuls des types limités de données peuvent être traduits de cette manière. La NHK affirme continuer à développer la technologie afin que les avatars puissent exprimer leurs émotions de manière plus humaine.


Lenovo et un pôle d'innovation brésilien CESAR récemment annoncé ils créaient un traducteur en langue des signes pour les entendants utilisant l'IA. De même, SLAIT (qui signifie Sign Language AI Translator) s'est développé un outil pédagogique qui permet d'apprendre l'ASL de manière interactive. Bien que ces tâches soient différentes de notre champ d'application, les techniques de vision par ordinateur et les modèles de formation en IA développés par ces projets peuvent être très utiles pour assurer la traduction de la parole en langue des signes à l'avenir.


D’autres startups se rapprochent de notre sujet de discussion. Par exemple, Signapseest venu avec une solution capable de traduire du texte en langue des signes affiché sous la forme d'un mouvement d'avatar animé photo-réaliste. La société utilise des réseaux contradictoires génératifs et des techniques d'apprentissage en profondeur, ainsi qu'une base de données vidéo en constante évolution (plus d'informations à ce sujet dans leur article évalué par des pairs). ici ). Cependant, cette plateforme est principalement destinée à traduire des annonces publiques et des textes de sites Web. En d’autres termes, on est encore loin d’une traduction en direct en temps réel.


La startup israélienne CODA a fait un nouveau pas en avant vers notre objectif. Il a développé un outil de traduction audio-signature alimenté par l'IA et affirme qu'il fonctionne "Presque instantanément" . Elle propose actuellement ses services dans cinq langues sources : anglais, hébreu, français, espagnol et italien. Ensuite, CODA vise à ajouter plusieurs langues des signes différentes de pays à forte population tels que l'Inde et la Chine.


La correspondance la plus proche de notre rêve a sans doute été présentée par Baidu AI Cloud sur sa plateforme d'avatar numérique Xiling. La plateforme A été lancé pour fournir au public malentendant les retransmissions des Jeux paralympiques d'hiver de Pékin 2022. Les médias locaux ont déclaré qu'ils étaient capables de générer des avatars numériques pour la traduction en langue des signes et l'interprétation en direct « en quelques minutes ».

Conclusion

La prochaine étape dans le développement de la traduction parole-signes consisterait à étendre la production à autant de langues des signes que possible et à réduire le délai nécessaire à la traduction de quelques minutes à quelques secondes. Ces deux tâches représentent des défis majeurs. Ajouter davantage de langues des signes au flux de sortie signifie créer et développer en permanence de vastes bases de données de gestes de la main et du corps ainsi que d'expressions faciales. Réduire le décalage horaire est encore plus important, car le sport est avant tout une question de moments. Même un intervalle d’une minute signifie que la diffusion doit être retardée, sinon le public manquera l’essence même du jeu. Le temps requis pour la traduction peut être réduit en construisant une infrastructure matérielle plus étendue, en développant des bases de données des modèles vocaux les plus typiques qui peuvent être reconnus avant même que la phrase ne soit terminée. Tout cela peut paraître coûteux. Mais d’un côté, améliorer la qualité de vie de millions de personnes n’a pas de prix. D’un autre côté, nous ne parlons pas seulement de charité. Pensez à l'audience supplémentaire que les émissions recevraient et à l'argent des sponsors qui est en jeu. Dans l’ensemble, cela pourrait être un jeu gagnant-gagnant.


Il semble que les majors de la technologie se joignent également à la course. Zippia, un portail de carrière, a récemment indiqué que Google a embauché interprètes en langue des signes à plus de deux fois le salaire auquel ils s'attendraient normalement aux États-Unis (110 734 $ contre 43 655 $ en moyenne). À ce tarif, un interprète linguistique gagnerait environ 10 % de plus qu'un ingénieur logiciel moyen aux États-Unis ( 100 260 $ ). Cela pourrait bien indiquer que nous nous attendons bientôt à une avancée majeure…


N'hésitez pas à commenter et unissons nos forces pour trouver la solution !