-
Kernix Lab,
Publié le 19/09/2013
Nous avons vu dans un article précédent que les données à traiter et analyser devenaient de plus en plus complexes.
Loin des tables bien propres et structurées, les défis posés par les données semi-structurées et non-structurées sont plus que jamais au centre de toutes les attentions.
Derrière cette dénomination générique, on retrouve tous les textes, emails, pages web, statuts de réseaux sociaux, fichiers multimédia comme des sons, des images et des vidéos, etc. Il s’agit donc avant tout de données irrégulières, dont les informations ne peuvent pas être simplement rangées dans des cases de façon systématique, et le terme non-structurées ne fait pas référence à l’absence de structure, mais au fait que ses données ont des structures très complexes et non standards, où l’information ne peut pas s’obtenir avec des requêtes simples auxquelles on est habitué.
Les données non-structurées ont toujours été présentes dans l’environnement des entreprises, mais elles sont restées longtemps dans l’ombre des données structurées, qui sont plus simples à analyser et à traiter.
On assiste cependant depuis peu à un intérêt renouvelé, et ce pour plusieurs raisons :
L’analyse des données structurées est une activité connue et naturellement maîtrisée. Comparer, appliquer des outils statistiques et faire de la prédiction sur des valeurs numérique sont des activités courantes. Pour ce qui est de l’analyse des données non-structurées, elle présente bien plus de difficultés, puisque de par leur nature, il n’est pas possible de leur associer du sens de façon systématique. Tout le défi consiste donc à faire comprendre à une machine comment extraire de l’information depuis ce qui n’est pour elle qu’une longue chaîne de 0 et de 1, et qui ne suit a-priori aucune règle particulière.
Afin de simplifier leur gestion et leur exploitation, l’étape initiale consiste à indexer le contenu, c’est-à-dire à l’associer à certaines informations au sein d’un système informatique pour faciliter son accès ultérieur à travers des formulaires de recherche.
Beaucoup d’entreprises s’arrêtent encore à cette étape, qui bien que nécessaire, est loin d’être suffisante. La machine ne joue ici qu’un rôle de stockage limité, alors que les possibilités, elles, vont bien plus loin que le simple fait d’accélérer une tâche réalisable par un opérateur humain. Il faut au contraire aller puiser dans toute la puissance calculatoire de l’informatique, pour extraire les informations contenues dans les données et les métadonnées associées, afin de favoriser l’émergence de connaissances auxquelles il serait autrement impossible d’accéder.
À ce niveau, il est utile de distinguer les traitements associés aux données de type texte et langage, des autres types que sont les images, les vidéos, et les pistes audio.
Les données peuvent en effet être traitées suivant deux axes, à travers leur contenu intrinsèque, et à travers le contexte et les métadonnées associées. Le traitement des données textuelles est plus simple car le contenu intrinsèque se laisse manipuler plus facilement.
Toute la difficulté vient de la capacité à identifier des éléments de base, communs entre différentes données . Il est en effet plus facile de retrouver un verbe conjugué de différentes façon à travers un corpus de documents, que d’identifier tous les chats possibles, en prenant en compte les changement de tailles et d’angles, ainsi que les différentes postures et les obstacles éventuels. Bien que des progrès impressionnants aient été faits dans cette voie, ils relèvent encore du domaine de la recherche, et nécessitent des structures très lourdes, avec des compétences pointues en machine learning et en traitement du signal. C’est ici que l’analyse des métadonnées et du contexte de la donnée joue un rôle intéressant, et souvent bien suffisant.
Le texte reste le sujet de choix des solutions de traitement de données non structurées sur le marché. Il se prête facilement à de nombreuses manipulations et algorithmes, et peut être abordé sous les angles sémantiques et syntaxiques.
Différentes solutions existent pour isoler l’information structurée qui y est présente, comme des noms, des dates ou des lieux. Mais on peut également adopter une approche plus globale, avec des modèles d’analyse sémantique, qui permettent d’identifier les documents les plus pertinents lors d’une recherche, les regrouper par thèmes, leur associer des mots-clés de façon automatique, identifier les sujets abordés ainsi que la tonalité et les sentiments dominants.
Mais les données non textuelles ne sont pas en reste, et il est possible dorénavant d’identifier dans des images la présence de personnes ou de certains objets, ou distinguer l’enregistrement d’un discours du cri d’une baleine, avec des succès variables suivant la nature et la complexité des corpus considérés, et les objectifs qu’on se fixe.
Les appareils photos ont appris avec le temps a reconnaître des visages humains, et les systèmes de reconnaissance automatique de parole sont devenus de plus en plus fiables.
Pour de meilleurs résultats, on peut adjoindre des informations supplémentaires au contenu, à travers des titres et sous-titres, des catégories et des mots-clés. La plupart de ces métadonnées sont généralement renseignées par les utilisateurs eux-mêmes, mais l’opération peut d’une part vite devenir très chronophage, et d’autre part donner lieu à beaucoup d’erreurs, avec des champs pas ou mal renseignés, des doublons à cause de l’absence ou de non-respect des standards, etc. Ces derniers peuvent être imposés par des référentiels définis en amont, et la technologie existe pour générer automatiquement de nombreuses métadonnées à partir du contenu, en allant chercher les informations structurées comme nous l’avons vu plus haut. C’est ainsi que des outils permettent d’identifier des entités nommées, et générer des mots-clés ou des résumés.
Mais le contexte peut aussi provenir des relations entre les documents. C’est ainsi que Google a défini l’autorité des pages web qu’il indexait, non pas à partir de leur contenu, mais à partir de leur situation au sein du réseau, les pages gagnant en autorité à travers les liens issus d’autres pages faisant également autorité.
Ce bref panorama des possibilités offertes à travers la gestion et l’analyse des données non-structurées est loin d’être exhaustif, mais il a pour objectif de faire prendre conscience que de nombreuses connaissances sont là, quelque part, mais reste inexploitables sans les outils adéquats.
Or il devient primordial de s’en saisir, et de mettre en place les infrastructures et les processus qui permettent d’en tirer les renseignements cruciaux nécessaires pour le développement de toute organisation. La technologie étant mieux maîtrisée, et devenant plus conviviale à l’utilisation, plus rien ne s’oppose à son adoption à grande échelle.