Publié le 16/02/2021
AI & Machine learning
Kernix à la pointe de l’innovation publie sa première thèse de recherche
Imaginez qu’à l’instar d’un de nos partenaires, un site de petites annonces, vous souhaitiez automatiser vos processus de traitement du texte. Imaginez ensuite que, quel que soit le prestataire auquel vous vous adressiez, on vous répond invariablement : « vos textes sont trop courts, trop nombreux, trop volatiles, etc. Les techniques actuelles ne peuvent rien pour vous. »
Certains problèmes ne peuvent être résolus à « l’état de l’art », c’est la raison pour laquelle Kernix a décidé, il y a trois ans, de contribuer à le faire avancer dans les directions qui pourront apporter satisfaction à ses clients. Et c’est ainsi qu’au cœur de l’été 2020, un membre du Datalab a soutenu avec succès la première thèse, dite CIFRE, réalisée au sein de notre agence web Kernix. Conçue en partenariat avec le Laboratoire Informatique PAris DEscartes (LIPADE),
Kernix a pu bénéficier de l’expertise d’une équipe de recherche en science des données et a apporté des cas d’utilisation concrets dont les réalisations tirent parti des dernières avancées dans la discipline. Nous revenons dans cet article sur les différents apports de cette thèse, pour Kernix et pour nos clients.
Kernix, expert en traitement du langage naturel
Une thèse, avec le dispositif CIFRE, est un travail de recherche qui associe un doctorant, une entreprise, et un laboratoire public de recherche. Les travaux mènent le doctorant à des publications qui améliorent l’état de l’art de la recherche tout en bénéficiant à l’entreprise par la résolution de problématiques spécifiques.
Dans notre cas, le sujet concernait le traitement du langage naturel appliqué à la recommandation. En particulier, trois caractéristiques, qui chacune constitue en enjeu scientifique majeur et une difficulté particulière, étaient considérées.
1. La taille des textes :
Plus les textes sont petits (tweets, petites annonces, verbatims de conversations, etc.), plus la qualité des méthodes existantes sont mauvaises car l’algorithme ne peut pas exploiter beaucoup de contexte. Il était donc essentiel d’apprendre la signification des mots via des méthodes de deep learning pour faire correspondre des synonymes et ainsi améliorer significativement la qualité des méthodes de similarité textuelle.
Pour illustrer ce problème, considérons les deux phrases suivantes : « Macron parle aux médias dans les Bouches-du-Rhône. » et « Le président s’adresse à la presse à Marseille. ». Les algorithmes classiques qui comptent le nombre de mots en communs entre les deux phrases considèrent ces deux phrases comme totalement différentes. Pourtant ces deux phrases ont le même sens. Utiliser les proximités sémantiques entre les mots « presse » et « média », entre « Bouches-du-Rhône » et « Marseille », et entre « Macron » et « président » permettent de pallier ce problème.
2. L’aspect non supervisé :
Afin de réduire drastiquement les coûts liés à une labellisation humaine, pourtant nécessaire pour une très grande partie des solutions d’apprentissage automatique, des algorithmes dits « non supervisés » ont été développés. Ils permettent d’automatiser considérablement l’adaptation à de nouvelles données et aux problématiques métier visées.
Par exemple, imaginons un constructeur automobile qui commercialise une nouvelle voiture. Son service marketing cherche à mesurer l’impact d’un changement de motorisation et surveille pour cela les messages des réseaux sociaux. Pour détecter les messages qui concernent la motorisation, une manière de procéder est de donner des exemples (environ une centaine) de tels messages et l’algorithme dit « supervisé » apprend à les reconnaître. Procéder ainsi requière une « annotation » fastidieuse et coûteuse. Une alternative est de regrouper automatiquement les messages qui se ressemblent sans annotation humaine dans ce cas on parle d’algorithme « non supervisé », ce qui a été développé au cours de cette thèse.
3. La volumétrie et la vélocité :
Des algorithmes peu gourmands en ressources développés durant cette thèse permettent de traiter des volumes de données conséquents à moindre coûts. Parfois, la forte fréquence de renouvellement des données introduit un problème supplémentaire qui a fait l’objet d’une attention particulière.
Un cas concret est la recommandation de petites annonces. Le volume de petites annonces est très important (de l’ordre de quelques centaines par seconde sur eBay et leboncoin) et dès qu’une annonce est publiée, les systèmes de recherche et de recommandation doivent la prendre rapidement en compte pour améliorer l’expérience utilisateur. D’autre part, les petites annonces périment rapidement (au bout de quelques heures ou quelques jours) il devient alors inutile et contre productif de les afficher à un utilisateur. Cette problématique s’applique également pour de la recommandation d’articles d’actualité qui, par leur nature même, nécessitent un traitement quasi immédiat.
Ces années de travail ont permis à Kernix de développer une expertise en fouille de texte et de consolider son expérience en réalisation de systèmes de recommandation. Plus globalement, certaines méthodes (classification croisée, apprentissage par transfert, …) sont transposables à d’autres types de données et renforcent notre maîtrise des technologies et des algorithmes exploités en science des données.
Notre présence active aux conférences internationales en machine learning et intelligence artificielle témoignent de notre engagement à partager nos solutions avec les communautés scientifique et industrielle. Elle nous permet également d’avoir une vision de l’état de l’art de la recherche et ses applications.
Les clients de Kernix, premiers bénéficiaires de ces travaux
Parallèlement aux travaux de recherche, Kernix a réalisé des projets qui tirent directement parti des avancées liées à la thèse.
En particulier, Kernix a développé un système de recommandation pour un agrégateur de petites annonces provenant entre autres de eBay et leboncoin. L’enjeu du passage à l’échelle était primordial dans ce cas puisque nous recevons environ 200 annonces par seconde. S’ajoute à cela la forte volatilité des données puisque certaines petites annonces ne sont plus valables au bout de quelques heures. La qualité de rédaction des petites annonces est aussi très variable ce qui amplifie le problème lié à la petite taille des contenus.
Aussi, nous avons bénéficié des travaux sur la similarité sémantique pour la réalisation d’un système de recommandation d’articles scientifiques pour un grand laboratoire pharmaceutique français, Servier. Souvent, seuls les titres et les résumés sont disponibles, d’où la petite taille des textes. Dans ce cas particulier, le problème est amplifié par la spécificité des articles de recherches qui utilisent des mots peu communs.
La réalisation du système de recommandation de films sur une plateforme de référence du cinéma et des séries tv a également profité de cette thèse, la similarité textuelle pouvant être combinée avec d’autres caractéristiques (réalisateurs ou acteurs en communs, genre, notes, etc.). Pour 6play (le système de vidéos à la demande du groupe M6), nous avons également exploité l’information textuelle des synopsis d’émissions conjointement aux données de visionnage et des caractéristiques des émissions (présentateurs, catégorie).
Indirectement, l’expertise acquise durant la thèse a permis de réaliser nos projets exploitant les données textuelles en évitant les écueils inhérents aux problématiques complexes de science de données.
Kernix et la recherche, une histoire qui va perdurer
La conduite d’une thèse CIFRE se place au cœur de notre approche hybride : la réalisation de projets clients et de projets de recherche. Les projets de recherche nous permettent d’avoir toujours une longueur d’avance et de développer une expertise au service de la réalisation de projets futurs : la recherche d’aujourd’hui est au cœur des succès de demain !
Cette assiduité pour la recherche a poussé récemment le Ministère de l’Enseignement Supérieur, de la Recherche et de l’Innovation à renouveler son agrément à l’agence Kernix en tant que Centre de Recherche jusqu’en 2024. Sous réserve d’éligibilité, cela permet à nos clients de bénéficier du Crédit d’Impôt Recherche (CIR).
Vous avez un enjeu particulier qui nécessite de dépasser les solutions existantes ? N’hésitez pas à nous partager votre problématique !