Cette conférence a permis de présenter nos travaux sur la classification de contenu textuel. Si nous pouvons lire régulièrement des articles sur la classification, ils ont souvent tendance à s’attarder sur le traitement des images. L’actualité estivale nous l’a encore montré avec la « révélation » lors d’une panne Facebook de l’étiquetage automatique des photos publiées sur le réseau social. Cet évènement était donc pour nous l’opportunité de présenter nos travaux sur une source omniprésente mais pourtant moins mise en lumière : le contenu textuel.
C’était également l’occasion d’avoir un aperçu des méthodes récentes appliquées à d’autres domaines et d’échanger avec d’autres chercheurs sur diverses problématiques que nous pouvons rencontrer dans nos projets data.
Nous présentons ici les différentes tendances de ce champ de la data science abordées lors de ces rencontres, et ce en partant du matériau de base que nous manipulons au quotidien, les données, classées selon leurs typologies.
Données textuelles
Notre contribution à cette conférence portait sur de la classification de données textuelles via des méthodes d’apprentissage par transfert. Plus précisément, nos travaux consistaient à l’évaluation de méthodes pour la substitution de word embeddings : les word embeddings permettent d’encoder la sémantique des mots dans des vecteurs (Figure 1).
Figure 1 : word embeddings.
Ces vecteurs peuvent alors significativement améliorer la classification de textes ou être utilisés en information supplémentaire pour d’autres objectifs de traitement du langage naturel (traduction automatique, détection d’entités nommés, etc.).
Cependant, pour des données spécialisées, certains mots sont inconnus du modèle de word embeddings. Ce type de modèle est fréquemment entraîné sur des sources offrant un grand volume de contenus pour couvrir un large panel sémantique mais qui présente l’inconvénient d’employer un langage grand public ou généraliste qui permet d’extraire le sens des mots (ex. : recours aux articles de Wikipédia). Si un modèle est entraîné avec les articles de Wikipédia, il pourrait rencontrer des difficultés à manipuler de nouveaux contenus qui ont recours à un lexique plus technique. Un exemple fréquent concerne le domaine de la santé. Il est vraisemblable que Wikipédia ne fournisse pas un panel large de noms de biomolécules.
Pour palier ces contraintes, il est fréquent de recourir à des méthodes de substitution. Une étude rigoureuse de ces méthodes de substitution est donc nécessaire et a donc été présentée et discutée lors de ces rencontres.
Ce type d’information sémantique de mots, encodés par des vecteurs, a été utilisé dans les travaux de Mickael Febrissy et. al. pour de la factorisation matricielle non-négative. Cette méthode a permis de faire de la classification non supervisée d’articles.
On parle de classification non supervisée quand aucun exemple explicite d’association entre un texte et une catégorie n’est donné à l’algorithme de classification en guise d’exemple d’apprentissage. L’algorithme trouve donc des groupes cohérents d’articles uniquement sur la base de leurs contenus respectifs. L’objectif est de faire émerger des textes des catégories sans le biais d’une grille de lecture préalablement établie.
On peut aisément envisager l’usage de cette méthode chez des producteurs ou diffuseurs de contenus. L’algorithme est ainsi capable de regrouper des articles en fonction de leurs thématiques. Imaginons une publication dédiée au sport, l’algorithme serait en mesure de classer les contenus concernant des sports de balles dans une catégorie et les sports mécaniques dans une autre.
Une alternative à la représentation vectorielle de mots pour encoder de l’information sémantique est d’utiliser des bases de données sémantiques. Une démonstration nous en a été faite par Jocelyn Poncelet qui a pu l’appliquer au domaine biomédical. Il a mis en lumière la possibilité d’appliquer des méthodes de partitionnement aussi bien sur des données biomédicales que sur des données de comportements de consommation dans des supermarchés.
La portabilité de la méthode d’un champ et d’un type de données à un autre offre des perspectives d’application concrète pour les entreprises que nous accompagnons.
Cas d’usage : L’analyse des verbatims
Lors d’une enquête de satisfaction ou d’un sondage, le traitement des retours fournis sur des questions ouvertes peut s’avérer complexe, chronophage et coûteux. L’emploi de l’IA avec un algorithme non supervisé, permet non seulement de faire émerger des groupements sans biaiser l’étude mais également d’envisager de réemployer le modèle sans nécessité de le réentrainer pour s’adapter aux spécificités des données d’entrée.
Données transactionnelles: vers plus de lisibilité
L’analyse de comportement est souvent tirée de données transactionnelles. C’est une pratique courante dans l’e-commerce pour optimiser l’efficacité d’outil marketing comme l’emailing.
Un exemple fréquent de données transactionnelles exploitées nous vient du panier d’un consommateur : lorsqu’il valide une commande sur un site e-commerce ou passe à la caisse dans un magasin, l’achat est historisé pour conserver les informations des différents produits achetés ensemble. L’association entre le client et le panier n’est pas retenue afin de ne pas conserver de données personnelles.
Ce type de données a fait l’objet de nombreux exposés (voir en particulier les quatres présentations d’Alexandre Bazin, Tatiana Makhalova, Alexanddre Termier et Lamine Diop). Le contenu détaillé (articles associées aux présentations) est disponible dans les actes de la conférence.
Ces méthodes de fouille de motifs donnent des premiers jets de résultats qui peuvent être difficile à exploiter par les équipes en charges dans les différentes organisations (qu’il s’agisse des services marketing ou commerciaux) en raison de l’abondance de motifs émergents et du niveau d’informations additionnelles qu’ils portent.
Exemple :
Parmi les produits qui se retrouvent le plus souvent dans le panier des français, on retrouve les pâtes et le riz. Cette association à elle seule n’apporte que peu d’information additionnelle.
Une méthode alternative, ou complémentaire, est d’utiliser des algorithmes de biclustering : cette jonction entre deux communautés de recherche a été faite par les travaux portant sur de l’analyse de concepts formels par Nyoman Juniarta et. al. Plusieurs présentations ont porté sur les treillis, qui constituent le cœur de méthodes d’extraction de règles d’association.
Données multidimensionnelles : exploiter l’information des différentes vues
Les données multidimensionnelles sont présentes dans de nombreux domaines : on peut par exemple exprimer différentes relations d’un graphe à l’aide d’un tenseur 3d.
Exemple :
Cet article contient un lien vers la page d’accueil, et est également cité sur Twitter. Chaque ligne et chaque colonne représente une page web. Au croisement nous pourrons noter la présence d’un lien (0 ou 1). On peut alors multiplier ces tableaux en ajoutant une couche d’information spécifique (il s’agit d’un lien présent sur un réseau social, il s’agit du même nom de domaine…)
Ces tableaux différents sont alors assemblés pour constituer un tenseur 3d (Figure 2).
Figure 2 : Tenseur 3d pour représenter différents types de relations entre articles (crédits : Rafika Boutalbi).
Rafika Boutalbi a présenté un modèle de classification croisée, permettant de classer deux dimensions simultanément. Ce type d’algorithmes appelé co-clustering a été par exemple implémenté dans le package Coclust auquel Kernix a contribué. Les travaux de Rafika Boutalbi constituent une extension au cas où plusieurs couches d’information sont disponibles (Figure 3).
Figure 3 : Classification croisée sur deux dimensions d’un tenseur 3d (crédits : Rafika Boutalbi).
Le partitionnement de données multidimensionnelles n’implique pas nécessairement de procéder à un partitionnement sur plusieurs dimensions. Par exemple, les travaux de Véronique Cariou portaient sur la classification de variables sur des données tridimensionnelles. Les travaux de Ndèye Niang sur des données multibloc concernaient la classification d’individus qui sont décrits par des variables structurées en blocs homogènes.
Séries temporelles : deux axes principaux de recherche
Les données issues de séries temporelles ont été utilisées dans deux travaux, se distinguant principalement par le type de classification voulu.
Milad Leyli-abadi a présenté une méthode pour détecter des changements communs à un ensemble de séquences catégorielles. En particulier une étude des données de consommation d’eau, collectées grâce aux compteurs intelligents Linky, a été menée. Le modèle incorpore de l’information météorologique et calendaire qui permet d’expliquer les changements de consommation de la population. Un autre cas d’usage est par exemple la prédiction de la fréquentation d’un musée en fonction de données calendaires et météorologiques. Ces travaux présentent une segmentation de périodes temporelles.
Les travaux présentés par Brieuc Conan-Guez s’attachent à un problème différent puisqu’il s’agit cette fois de partitionner des séries suivant leur forme. Ceci permet de regrouper dans une même classe des comportements similaires. Une étude comparant la méthode proposée par rapport aux méthodes plus connues « DTW Barycenter Averaging » et « K-Spectral Centroid » a été présentée.
Veille et partage
Cette seconde participation aux Rencontres de la Société Francophone de Classification nous a permis de discuter de différentes problématiques auxquelles nous sommes confrontés lors de la réalisation de projets data science. Nous avons retrouvé quelques confrères, avec qui par exemple nous avons réalisé un système de recommandation de petites annonces. Ces rencontres sont toujours enrichissantes car elles permettent de se tenir informé des dernières avancées en recherche dans le domaine de la data science. Elles permettent d’anticiper certaines difficultés et de s’inspirer de solutions trouvées dans différents domaines d’application.
Kernix aux XXVIe Rencontres de la Société Francophone de Classification
Ce mode permet aux personnes épileptiques d'utiliser le site Web en toute sécurité en éliminant le risque de convulsions résultant d'animations clignotantes ou clignotantes et de combinaisons de couleurs à risque.
Mode malvoyant
Améliore les visuels du site Web
Ce mode ajuste le site Web pour la commodité des utilisateurs souffrant de déficiences visuelles telles que la vue dégradante, la vision tunnel, la cataracte, le glaucome et autres.
Mode handicap cognitif
Aide à se concentrer sur un contenu spécifique
Ce mode offre différentes options d'assistance pour aider les utilisateurs souffrant de troubles cognitifs tels que la dyslexie, l'autisme, l'AVC et autres, à se concentrer plus facilement sur les éléments essentiels du site Web.
Mode adapté au TDAH
Réduit les distractions et améliore la concentration
Ce mode aide les utilisateurs atteints de TDAH et de troubles neurodéveloppementaux à lire, parcourir et se concentrer plus facilement sur les principaux éléments du site Web tout en réduisant considérablement les distractions.
Mode Cécité
Permet d'utiliser le site avec votre lecteur d'écran
Ce mode configure le site Web pour qu'il soit compatible avec les lecteurs d'écran tels que JAWS, NVDA, VoiceOver et TalkBack. Un lecteur d'écran est un logiciel destiné aux utilisateurs aveugles qui s'installe sur un ordinateur et un smartphone, et les sites Web doivent être compatibles avec celui-ci.
Dictionnaire en ligne
Expérience lisible
Mise à l'échelle du contenu
Défaut
Loupe de texte
Police lisible
Adapté à la dyslexie
Titres en surbrillance
Mettre en surbrillance les liens
Taille de la police
Défaut
Hauteur de la ligne
Défaut
L'espacement des lettres
Défaut
Aligné à gauche
Aligné au centre
Aligné à droite
Expérience visuellement agréable
Contraste sombre
Contraste léger
Monochrome
Contraste élevé
Haute saturation
Faible saturation
Ajuster les couleurs du texte
Ajuster les couleurs du titre
Ajuster les couleurs d'arrière-plan
Orientation facile
Couper les sons
Masquer les images
Masquer les emojis
Guide de lecture
Arrêter les animations
Masque de lecture
Mettre en surbrillance le survol
Mise en surbrillance
Grand curseur sombre
Grand curseur lumineux
Lecture cognitive
Clavier virtuel
Touches de navigation
Navigation vocale
Accessibility Statement
www.kernix.com
22 octobre 2025
Compliance status
We firmly believe that the internet should be available and accessible to anyone, and are committed to providing a website that is accessible to the widest possible audience,
regardless of circumstance and ability.
To fulfill this, we aim to adhere as strictly as possible to the World Wide Web Consortium’s (W3C) Web Content Accessibility Guidelines 2.1 (WCAG 2.1) at the AA level.
These guidelines explain how to make web content accessible to people with a wide array of disabilities. Complying with those guidelines helps us ensure that the website is accessible
to all people: blind people, people with motor impairments, visual impairment, cognitive disabilities, and more.
This website utilizes various technologies that are meant to make it as accessible as possible at all times. We utilize an accessibility interface that allows persons with specific
disabilities to adjust the website’s UI (user interface) and design it to their personal needs.
Additionally, the website utilizes an AI-based application that runs in the background and optimizes its accessibility level constantly. This application remediates the website’s HTML,
adapts Its functionality and behavior for screen-readers used by the blind users, and for keyboard functions used by individuals with motor impairments.
If you’ve found a malfunction or have ideas for improvement, we’ll be happy to hear from you. You can reach out to the website’s operators by using the following email
Screen-reader and keyboard navigation
Our website implements the ARIA attributes (Accessible Rich Internet Applications) technique, alongside various different behavioral changes, to ensure blind users visiting with
screen-readers are able to read, comprehend, and enjoy the website’s functions. As soon as a user with a screen-reader enters your site, they immediately receive
a prompt to enter the Screen-Reader Profile so they can browse and operate your site effectively. Here’s how our website covers some of the most important screen-reader requirements,
alongside console screenshots of code examples:
Screen-reader optimization: we run a background process that learns the website’s components from top to bottom, to ensure ongoing compliance even when updating the website.
In this process, we provide screen-readers with meaningful data using the ARIA set of attributes. For example, we provide accurate form labels;
descriptions for actionable icons (social media icons, search icons, cart icons, etc.); validation guidance for form inputs; element roles such as buttons, menus, modal dialogues (popups),
and others. Additionally, the background process scans all the website’s images and provides an accurate and meaningful image-object-recognition-based description as an ALT (alternate text) tag
for images that are not described. It will also extract texts that are embedded within the image, using an OCR (optical character recognition) technology.
To turn on screen-reader adjustments at any time, users need only to press the Alt+1 keyboard combination. Screen-reader users also get automatic announcements to turn the Screen-reader mode on
as soon as they enter the website.
These adjustments are compatible with all popular screen readers, including JAWS and NVDA.
Keyboard navigation optimization: The background process also adjusts the website’s HTML, and adds various behaviors using JavaScript code to make the website operable by the keyboard. This includes the ability to navigate the website using the Tab and Shift+Tab keys, operate dropdowns with the arrow keys, close them with Esc, trigger buttons and links using the Enter key, navigate between radio and checkbox elements using the arrow keys, and fill them in with the Spacebar or Enter key.Additionally, keyboard users will find quick-navigation and content-skip menus, available at any time by clicking Alt+1, or as the first elements of the site while navigating with the keyboard. The background process also handles triggered popups by moving the keyboard focus towards them as soon as they appear, and not allow the focus drift outside it.
Users can also use shortcuts such as “M” (menus), “H” (headings), “F” (forms), “B” (buttons), and “G” (graphics) to jump to specific elements.
Disability profiles supported in our website
Epilepsy Safe Mode: this profile enables people with epilepsy to use the website safely by eliminating the risk of seizures that result from flashing or blinking animations and risky color combinations.
Visually Impaired Mode: this mode adjusts the website for the convenience of users with visual impairments such as Degrading Eyesight, Tunnel Vision, Cataract, Glaucoma, and others.
Cognitive Disability Mode: this mode provides different assistive options to help users with cognitive impairments such as Dyslexia, Autism, CVA, and others, to focus on the essential elements of the website more easily.
ADHD Friendly Mode: this mode helps users with ADHD and Neurodevelopmental disorders to read, browse, and focus on the main website elements more easily while significantly reducing distractions.
Blindness Mode: this mode configures the website to be compatible with screen-readers such as JAWS, NVDA, VoiceOver, and TalkBack. A screen-reader is software for blind users that is installed on a computer and smartphone, and websites must be compatible with it.
Keyboard Navigation Profile (Motor-Impaired): this profile enables motor-impaired persons to operate the website using the keyboard Tab, Shift+Tab, and the Enter keys. Users can also use shortcuts such as “M” (menus), “H” (headings), “F” (forms), “B” (buttons), and “G” (graphics) to jump to specific elements.
Additional UI, design, and readability adjustments
Font adjustments – users, can increase and decrease its size, change its family (type), adjust the spacing, alignment, line height, and more.
Color adjustments – users can select various color contrast profiles such as light, dark, inverted, and monochrome. Additionally, users can swap color schemes of titles, texts, and backgrounds, with over seven different coloring options.
Animations – person with epilepsy can stop all running animations with the click of a button. Animations controlled by the interface include videos, GIFs, and CSS flashing transitions.
Content highlighting – users can choose to emphasize important elements such as links and titles. They can also choose to highlight focused or hovered elements only.
Audio muting – users with hearing devices may experience headaches or other issues due to automatic audio playing. This option lets users mute the entire website instantly.
Cognitive disorders – we utilize a search engine that is linked to Wikipedia and Wiktionary, allowing people with cognitive disorders to decipher meanings of phrases, initials, slang, and others.
Additional functions – we provide users the option to change cursor color and size, use a printing mode, enable a virtual keyboard, and many other functions.
Browser and assistive technology compatibility
We aim to support the widest array of browsers and assistive technologies as possible, so our users can choose the best fitting tools for them, with as few limitations as possible. Therefore, we have worked very hard to be able to support all major systems that comprise over 95% of the user market share including Google Chrome, Mozilla Firefox, Apple Safari, Opera and Microsoft Edge, JAWS and NVDA (screen readers).
Notes, comments, and feedback
Despite our very best efforts to allow anybody to adjust the website to their needs. There may still be pages or sections that are not fully accessible, are in the process of becoming accessible, or are lacking an adequate technological solution to make them accessible. Still, we are continually improving our accessibility, adding, updating and improving its options and features, and developing and adopting new technologies. All this is meant to reach the optimal level of accessibility, following technological advancements. For any assistance, please reach out to