par Si Luo, responsable du Traitement du Langage Naturel (NLP) chez Alibaba DAMO Academy
Plus grand, plus rapide, plus intelligent… Il est dans la nature humaine de vouloir être le meilleur, et le but de la compétition est de prouver qui -ou quoi- est au-dessus du lot dans un défi ou une activité donnés.
Depuis quelque temps, cet esprit de compétition s’est développé à l’occasion de nombreux défis entre l’humain et la machine. Outre leur valeur de divertissement et de curiosité, l’un des avantages de ces défis est qu’ils permettent de mesurer l’évolution des nouvelles technologies, en les faisant passer à un niveau de maturité supérieur pour être utilisées dans des applications courantes afin simplifier la vie des utilisateurs finaux.
À titre d’exemple, beaucoup d’entre nous utilisent à présent la voix comme interface principale avec les assistants personnels intégrés aux appareils du quotidien, qu’il s’agisse des téléphones portables, des systèmes d’info-divertissement, des voitures ou des haut-parleurs intelligents domestiques. Si les technologies vocales ne datent pas d’hier, il a fallu attendre 2011 pour qu’elles soient révélées au grand public lorsque Watson d’IBM est apparu dans le jeu télévisé Jeopardy! Ce fut une démonstration publique des progrès réalisés dans le traitement du langage naturel, qui permet de “parler” et de “commander” facilement les appareils et des services du quotidien.
Quand la machine surpasse l’humain…
L’un des exemples récents les plus passionnants du progrès technologique est le challenge organisé chaque année depuis 2015 par la conférence visuelle de référence mondiale CVPR (Conference on Computer Vision and Pattern Recognition).
L’événement attire des acteurs mondiaux du secteur des nouvelles technologies tels que Facebook, Microsoft et des universités de renom comme l’Université de Stanford (Californie). L’évaluation présente une image et une question connexe en langage naturel, à laquelle les participants doivent fournir une réponse précise en langage naturel. Cette année, le défi contenait plus de 250 000 images et 1,1 million de questions.
L’Alibaba DAMO Academy a obtenu la première place du dernier classement mondial VQA (Visual Question Answering), en dépassant les performances d’un humain dans le même contexte. Pour la première fois, une machine a surpassé l’humain dans la compréhension des images pour répondre à des questions textuelles. L’algorithme a enregistré un taux de précision de 81,26 % pour répondre aux questions liées aux images, à comparer à la performance de l’humain de 80,83 % (dans une partie standard de test).
La percée de l’intelligence artificielle dans la réponse aux questions liées à l’image a été rendue possible grâce à la conception d’algorithmes innovants en s’appuyant sur des technologies exclusives, notamment diverses représentations visuelles, des modèles linguistiques multimodaux pré-entraînés, une fusion sémantique intermodale adaptative et sa technologie d’alignement.
Décharger l’humain des tâches répétitives
L’équipe d’Alibaba a pu réaliser des progrès considérables non seulement dans l’analyse des images et la compréhension de l’intention des questions, mais aussi dans la réponse à ces dernières par le biais d’un raisonnement approprié, tout en l’exprimant dans un style conversationnel proche de celui de l’homme.
La technologie VQA (Visual Question Answering) a déjà été largement appliquée dans l’écosystème de diverses entreprises tel qu’Alibaba. Par exemple, elle a été intégrée dans un chatbot intelligent utilisé par des dizaines de milliers de commerçants sur les plateformes de vente au détail.
Cette nouvelle étape importante dans le domaine de l’intelligence artificielle souligne les efforts continus déployés pour stimuler la recherche et le développement dans les domaines liés à l’IA. Elle nous donne également l’occasion de célébrer les avantages que l’IA avancée apporte aux humains.
Lorsque les machines sont “intelligentes”, elles peuvent être utilisées pour nous assister dans notre travail et dans notre vie quotidienne, permettant ainsi aux gens de se concentrer sur les tâches créatives qu’ils maîtrisent le mieux, tandis que les machines se concentrent sur les tâches moins intéressantes et plus répétitives.
À ce titre, VQA peut être utilisé dans un large éventail de domaines, comme la recherche de produits sur les sites de commerce électronique, l’analyse d’images médicales pour le diagnostic initial d’une maladie, ainsi que pour la conduite “intelligente”. L’assistant d’IA automatique peut offrir une analyse de base des photos prises par la caméra du véhicule. Dans tous ces cas de figure, VQA s’efforce d’améliorer la vie des gens sur le plan personnel et professionnel.
Ce désir d’évolution ne nous quittera jamais. Mais en attendant, nous devrions tous réfléchir aux progrès technologiques qui ont été réalisés et qui facilitent notre vie quotidienne. Une grande partie de ces progrès a été forgée dans l’esprit de compétition entre l’homme et la machine.
Tags alibaba Alibaba DAMO Academy facebook IBM Intelligence Artificielle microsoft NLP Si Luo Université de Stanford Watson