-
François-Xavier Bois,
-
Expert IA
Publié le 21/01/2026
Les enjeux de visibilité sur le web se sont longtemps cantonnés à la seule maîtrise de l’art subtil du référencement naturel : le SEO (Search Engine Optimization). Depuis presque 30 ans, les sorciers du marketing en ligne ont tenté de comprendre le fonctionnement des algorithmes de Google pour optimiser leur position dans les pages de résultats. Cette suprématie a cependant vacillé ces dernières années avec la montée en puissance des LLMs dans nos vies. Le corolaire à cette évolution sociétale est qu’il devenait indispensable pour un responsable marketing de faire en sorte que des acteurs tels que ChatGPT, Mistral, Perplexity, Gemini, etc. citent dans leurs réponses leur marque plutôt que leurs concurrents : le Generative Engine Optimization (GEO) était né.
Comme nous le verrons dans cet article, SEO et GEO partagent un certain nombre de points communs mais s’éloignent sur des principes de fond. Être conscient de ces différences est essentiel avant de concevoir un nouveau site (contraintes techniques) et de travailler sur ses contenus (dimension éditoriale).
Les contenus publiés sur la toile constituent la matière première au cœur des Search Engines (SE) et des Generative Engines (GE). Dans cette perspective, plus vous publierez de contenus de qualité, plus votre visibilité s’améliorera. Pour rappel un contenu est considéré comme qualitatif par Google lorsqu’il répond aux critères E-E-A-T: Expertise, Expérience, Autorité et Fiabilité (Trustworthiness).
En ce qui concerne l’autorité, il convient de rappeler que tous les contenus ne sont pas logés à la même enseigne. Les GE prennent également en compte la réputation d’un site. La notion de PageRank reste pertinente : plus votre site sera cité (lien entrant) par des sites “importants” et crédibles, plus il améliorera sa notoriété (et son autorité).
Comme nous l’évoquerons dans la partie suivante, l’indexation du web par les GE n’est pas un sujet neutre. Les moyens mis en œuvre sont moindre par rapport à ceux déployés par les SE (notamment google). Il est donc important de faciliter leur travail en s’assurant d’une vitesse de chargement optimale des pages et d’une excellente disponibilité de votre site (éviter les coupures).
Les GE sont en mesure d’extraire les données structurées des pages. L’utilisation de schémas (ex. produits) reste donc également pertinente dans ce contexte.
Les GE (OpenAI, Perplexity et autres) doivent crawler le web par leurs propres moyens (qui sont bcp moins importants que ceux de Google qui scrappe des milliards de sites depuis 30 ans). Il est par conséquent d’autant plus important de proposer des contenus “prêt à l’emploi”. Il est à ce titre proscrit de construire vos pages en JavaScript (cf. approche CSR = Client Side Rendering). Les plateformes de protection type DataDome vont également devoir s’adapter pour faciliter l’indexation des pages par les GE. Sans indexation pas de visibilité ni de traffic via les IA.
GE et SE ne fournissent pas le même service. Les SE retournent une sélection de pages correspondant à un mot clef, les GE fournissent quant à eux une réponse à une question exprimée dans le cadre d’un prompt. Comme nous pouvons le constater, les GE fournissent des réponses contextualisées généralement accompagnées des questions liées pour aller plus loin. Il leur faut par conséquent élargir la requête initiale pour obtenir plus de “matière” pour élaborer cette réponse enrichie. Cette notion d’élargissement du périmètre d’analyse du LLM porte un nom : le Query Fan Out. Il s’agit de trouver les requêtes connexes à la question initiale. Imaginons que l’on cherche à se renseigner sur les offres d’hébergement web, l’IA cherchera à mentionner dans sa réponse quels sont les enjeux (disponibilité, localisation des données, sauvegardes), les acteurs (concurrents), les critères à prendre en compte (ex. CMS), les contraintes (ex. volume de données) etc. Cette approche incite à repenser la manière de produire du contenu sur le web.
Il ne s’agit plus uniquement de cibler un mot clef, mais une intention de recherche : je ne souhaite pas trouver toutes les pages qui parlent d’hébergement web, je souhaite trouver une offre d’hébergement qui réponde à mon besoin. Il faudra donc parler du sujet ciblé mais également de toutes les dimensions liées. La mise en place de FAQ (en respectant le schéma idoine) est un bon réflexe.
Le sourcing de l’information est également un sujet important. Imaginons que vous souhaitiez identifier la meilleure offre d’assurance pour votre résidence principale. Il est rassurant que les IAs ne vous recommandent pas une offre uniquement à partir des contenus publiés directement par les assureurs. Les IAs doivent intégrer dans leur réponse des avis de tiers qui ont réalisé cette évaluation. Il est donc d’autant plus important lorsque l’on cherche à développer sa notoriété dans les IA d’obtenir des articles dans les médias de référence. Le recours aux relations presse prend ici tout son sens.
Le web n’est pas la seule source de données exploitée par les GE. Les documents de type doc, pdf ont autant d’importance que les pages web. De la même manière, les sources de données structurées telles que Wikidata, le KnowLedge Graph (Google Business, etc.) sont très importantes pour les GE. Ces sources de données sont donc essentielles à travailler.
Impossible d’évoquer le couple “IA Générative / visibilité web” sans parler de la production de contenus par les IA génératives (ChatGPT, Mistral, Copilot, Claude, etc.). Comme nous l’évoquions au début de cet article, il est convenu depuis plus de 20 ans que plus vous publierez de contenus de qualité, plus votre site gagnera en visibilité dans les moteurs de recherche. Le mot important dans cette phrase est “qualité”. Il n’est bien évidemment pas souhaitable d’envisager un web croulant sous les contenus produits automatiquement d’une part et qui, d’autre part, serviraient à entraîner les modèles utilisés pour publier des nouvelles pages. Google est conscient de cette situation pernicieuse. Dans un mouvement qui peut sembler schizophrénique pour le créateur de Gemini, la firme de Mountain View a fait évoluer en août 2025 son outil SpamBrain pour pénaliser les usines à contenus (production de masse) et éviter ainsi de dégrader la qualité de son index.
Une chose est sûre, nous conseillons vivement d’utiliser l’IA au mieux comme assistant pour ne pas prendre le risque d’être pénalisé sur le long terme. Il est d’ailleurs rassurant de constater que ce principe de bon sens commence à se diffuser et que le pourcentage de contenus “IA” tend à diminuer (cf. l’étude publiée originality.ai).
Ces enjeux ont d’ailleurs été largement abordés lors de la conférence « IA & Acquisition Client : les nouveaux enjeux de visibilité pour les acteurs de la finance et de l’immobilier », organisée par Finance Innovation, à laquelle François-Xavier Bois rédacteur de cet article a participé.
Les échanges ont confirmé une tendance de fond : la visibilité ne se joue plus uniquement dans les moteurs de recherche traditionnels, mais de plus en plus dans les réponses produites par les IA génératives, avec des impacts directs sur l’acquisition, la notoriété et la confiance.
Depuis plus de 15 ans le Kernix DataLab réalise des missions mettant en œuvre des approches IA pour automatiser / optimiser des processus métier (scoring financier, recommandation de produits, optimisation de flux, etc.). A l’ère des LLMs, nos datascientists utilisent ces modèles dans le cadre de nombreux cas d’usage autour du traitement automatique de données non structurées (cf. Squareness, extraction d’entités nommées) ou de production de contenus (cf. création d’images pour Leo Pharma).
La maîtrise des sous-jacents technologiques des LLMs nous permet de proposer un accompagnement aux éditeurs souhaitant optimiser leur visibilité au sein des IAs.