Référence

Glossaire GEO, AEO, SEO et IA générative

50 termes essentiels pour comprendre le référencement IA et classique : GEO, AEO, SEO, LLM, RAG, ChatGPT, Claude, schémas structurés, E-E-A-T, crawlers IA. Définitions claires, exemples concrets et liens entre les termes.

Le référencement traverse une mutation majeure depuis l'arrivée des moteurs IA conversationnels. Cinquante termes structurent désormais la discipline : du SEO classique à la Generative Engine Optimization (GEO), en passant par l'Answer Engine Optimization (AEO), les schémas structurés et les crawlers IA. Ce glossaire les définit clairement, avec leur contexte d'usage et leurs liens entre eux.

🤖 GEO / LLM

Generative Engine Optimization (GEO)

Discipline qui optimise la visibilité d'une entreprise dans les réponses générées par les moteurs IA conversationnels.

La Generative Engine Optimization (GEO) regroupe les techniques permettant d'être cité, recommandé ou mentionné par ChatGPT, Claude, Perplexity, Gemini et leurs équivalents lorsqu'un utilisateur pose une question. Contrairement au SEO classique qui optimise la position dans les résultats Google, le GEO vise à devenir une source de référence pour le LLM lui-même. Les leviers principaux : structuration sémantique, schémas JSON-LD enrichis, autorité externe, mentions presse et profils tiers vérifiables.

Citation IA (AI Citation)

Mention nommée d'une marque, d'un site ou d'un auteur dans la réponse d'un moteur IA.

Une citation IA est l'occurrence d'une source dans la réponse générée par un LLM, sous forme de nom de marque, de lien ou de paraphrase attribuée. C'est le KPI principal du GEO : on ne mesure plus la position dans une SERP mais la fréquence et la qualité des citations dans les réponses IA. Les LLM citent en priorité des sources jugées fiables, structurées et reconnues dans leur domaine.

LLM (Large Language Model)

Modèle d'intelligence artificielle entraîné sur un large corpus de texte pour générer du langage naturel.

Un Large Language Model est un réseau de neurones (généralement de type transformer) entraîné sur des milliards de tokens textuels. ChatGPT (OpenAI), Claude (Anthropic), Gemini (Google), Mistral et Llama (Meta) en sont les exemples les plus connus. Les LLM génèrent des réponses en prédisant le token suivant, conditionnés par le contexte du prompt. Pour le GEO, comprendre comment chaque LLM sélectionne ses sources (RAG, entraînement, web search) est central.

RAG (Retrieval-Augmented Generation)

Architecture où le LLM récupère de l'information externe en temps réel avant de générer sa réponse.

Le Retrieval-Augmented Generation combine un moteur de recherche et un LLM : à la réception d'une requête, le système interroge une base documentaire (web, base interne, vector store), récupère les passages pertinents, puis les fournit au LLM comme contexte pour générer la réponse. ChatGPT (avec navigation web), Perplexity et Claude (avec citations) utilisent tous le RAG. Pour le GEO, c'est le mécanisme qui rend les sources externes citables.

ChatGPT

Assistant conversationnel d'OpenAI basé sur la famille de modèles GPT.

ChatGPT est le produit grand public d'OpenAI lancé en novembre 2022. Il combine plusieurs modèles GPT (GPT-4o, GPT-4.1, GPT-5…) avec une interface conversationnelle, une mémoire utilisateur, et des outils comme la navigation web (qui déclenche le crawler GPTBot), la génération d'images (DALL-E) et l'exécution de code. ChatGPT est le moteur IA le plus utilisé au monde (>300 millions d'utilisateurs hebdomadaires en 2025) et constitue la cible #1 du GEO.

Claude

Assistant conversationnel d'Anthropic, concurrent direct de ChatGPT.

Claude est développé par Anthropic, fondée par d'anciens chercheurs d'OpenAI (Dario et Daniela Amodei). Les modèles Claude (Sonnet, Opus, Haiku) sont reconnus pour leur capacité de raisonnement long, leur traitement de fenêtres de contexte étendues (jusqu'à 1 million de tokens en 2025) et leur ton plus prudent. Claude est utilisé en API par de nombreuses entreprises et possède son propre crawler ClaudeBot. Anthropic met un accent particulier sur la sécurité IA et la transparence des citations.

Perplexity

Moteur de recherche IA conversationnel avec citation systématique des sources.

Perplexity AI se positionne comme un moteur de recherche augmenté par l'IA : chaque réponse est accompagnée des liens vers les sources utilisées (généralement 3 à 7 par requête). C'est l'outil le plus transparent sur la provenance de ses réponses, et le plus rentable côté GEO : être cité par Perplexity est mesurable et apporte du trafic referer. Le crawler PerplexityBot parcourt activement le web.

Google Gemini

Assistant IA conversationnel de Google, successeur de Bard et intégré aux produits Google.

Gemini (anciennement Bard) est la famille de modèles IA de Google, disponibles via l'app gemini.google.com et intégrés dans Google Search (sous forme d'AI Overviews), Gmail, Docs et Android. Gemini puise dans l'index Google et utilise le crawler Google-Extended pour décider quelles pages alimentent ses réponses. Pour le GEO francophone, Gemini gagne en visibilité depuis 2025.

Bing Copilot / Microsoft Copilot

Assistant IA conversationnel de Microsoft, intégré à Bing Search et à Windows.

Microsoft Copilot (anciennement Bing Chat) est l'assistant IA de Microsoft, propulsé par les modèles GPT (OpenAI) et adapté avec les données de l'index Bing. Présent dans Windows 11, Edge, Microsoft 365 et Bing Search, Copilot dispose d'une part de marché significative en B2B grâce à l'intégration native. Pour le GEO, optimiser sa visibilité Copilot revient en grande partie à optimiser sa visibilité Bing.

Mistral

Famille de modèles IA open-weight développée par la startup française Mistral AI.

Mistral est la principale alternative française et européenne aux LLM américains. Les modèles Mistral (Small, Medium, Large, Codestral, Mixtral) sont disponibles en open-weight (téléchargeables) et via API. Mistral est intégrée dans Le Chat (chatbot grand public) et dans de nombreuses solutions B2B européennes. Son usage croissant en France en fait une cible GEO pertinente pour le marché francophone.

Token

Unité élémentaire de texte traitée par un LLM, généralement plus petite qu'un mot.

Un token est la brique de base sur laquelle opère un LLM. En anglais, 1 token correspond approximativement à 0,75 mot ; en français, plutôt 0,5 mot. Une phrase comme « Bonjour à tous » fait environ 4 tokens. Les LLM ont une fenêtre de contexte limitée (de 4 000 à 1 000 000 tokens selon les modèles), qui détermine la quantité de texte qu'ils peuvent traiter en une seule requête. Les coûts d'API se facturent au million de tokens.

Prompt

Instruction textuelle envoyée à un LLM pour obtenir une réponse.

Un prompt est l'entrée utilisateur qui déclenche la génération d'une réponse par un LLM. Il peut être court (« Résume cet article ») ou long et structuré (avec rôle, contexte, format attendu). L'ingénierie de prompts (prompt engineering) est la discipline qui consiste à formuler des prompts efficaces. En GEO, comprendre comment les utilisateurs formulent leurs prompts permet d'optimiser le contenu pour matcher ces formulations.

Embedding

Représentation numérique vectorielle d'un texte, utilisée pour mesurer la similarité sémantique.

Un embedding transforme un mot, une phrase ou un document en un vecteur de nombres (généralement 768, 1 024 ou 1 536 dimensions). Deux textes similaires sémantiquement ont des embeddings proches dans l'espace vectoriel. Les moteurs IA utilisent les embeddings pour retrouver les passages pertinents dans une base documentaire (RAG), classifier le contenu et mesurer la pertinence d'une source par rapport à une requête.

Fine-tuning

Réentraînement spécialisé d'un LLM existant sur un jeu de données spécifique.

Le fine-tuning consiste à prendre un modèle de fondation (comme GPT-4 ou Llama) et à le réentraîner sur un corpus métier (juridique, médical, marketing…) pour spécialiser son comportement. Le résultat est un modèle dérivé qui maîtrise mieux le vocabulaire et les conventions du domaine. C'est différent du RAG, qui récupère de l'information externe à la volée sans modifier le modèle lui-même.

Hallucination IA

Réponse fausse ou inventée produite par un LLM avec une apparence de certitude.

Une hallucination est une affirmation factuellement incorrecte qu'un LLM génère avec assurance — un nom, une date, une citation, une URL inventée. C'est un problème inhérent aux modèles probabilistes : ils prédisent le token suivant le plus plausible, pas le plus vrai. Les architectures RAG réduisent considérablement les hallucinations en grounding la réponse sur des sources vérifiables. En GEO, structurer son contenu avec des faits sourcés réduit le risque que les LLM hallucinent à votre sujet.

💬 AEO et moteurs de réponse

Answer Engine Optimization (AEO)

Optimisation de contenu pour qu'il soit utilisé directement comme réponse par les moteurs de recherche et IA.

L'Answer Engine Optimization précède le GEO et désigne l'optimisation pour les boîtes de réponse Google (Featured Snippets, People Also Ask), les assistants vocaux (Siri, Alexa, Google Assistant) et les premiers moteurs IA. La logique : structurer le contenu en questions/réponses claires, balises HTML sémantiques et schémas FAQPage/QAPage. L'AEO est aujourd'hui intégré au GEO mais reste pertinent pour la visibilité dans Google.

Featured Snippet

Encart de réponse mis en avant en haut des résultats Google, extrait d'une page tierce.

Un Featured Snippet est une boîte de réponse Google affichée au-dessus des résultats organiques, avec un extrait directement issu d'une page web. Trois formats principaux : paragraphe, liste, tableau. Décrocher le Featured Snippet capte une part majoritaire des clics sur la requête. Pour l'optimiser : répondre clairement à la question dans 40 à 60 mots, juste après le H2/H3 correspondant.

AI Overview (Google SGE)

Résumé généré par Gemini affiché en haut des résultats Google sur certaines requêtes.

Les AI Overviews (anciennement Search Generative Experience ou SGE) sont les résumés IA que Google génère pour les requêtes informationnelles. Le système puise dans plusieurs pages web (généralement 3 à 7), les synthétise via Gemini, et affiche le résultat au-dessus des résultats classiques. Pour la majorité des recherches concernées, l'AI Overview entraîne une chute du CTR vers les résultats organiques classiques (selon les études 2024-2025, jusqu'à -30 %).

Zero-Click Search

Recherche pour laquelle l'utilisateur obtient sa réponse directement dans la SERP.

Une recherche est dite zero-click quand la réponse est servie directement par Google (Featured Snippet, AI Overview, panneau Knowledge Graph) sans que l'utilisateur n'ait besoin d'ouvrir une page tierce. Selon les études SparkToro / SimilarWeb, plus de 60 % des recherches Google en 2025 sont zero-click. Conséquence : le SEO classique perd en valeur, le GEO et l'AEO deviennent essentiels pour rester visible.

Voice Search

Recherche effectuée par commande vocale sur un assistant (Siri, Alexa, Google Assistant).

La recherche vocale représente une part croissante des requêtes, surtout sur mobile et enceintes connectées. Les requêtes vocales sont généralement plus longues, formulées en langage naturel, et conversationnelles (« Quel est le meilleur restaurant italien à Lyon ? » vs « restaurant italien lyon »). L'optimisation Voice Search se rapproche fortement de l'AEO et du GEO : contenu en Q/R, schémas FAQPage, formulations naturelles.

Question-Answering (QA)

Tâche d'IA consistant à fournir une réponse précise à une question donnée.

Le question-answering est une tâche fondamentale en NLP : étant donné une question et un corpus, produire la réponse la plus correcte. Tous les moteurs IA conversationnels reposent sur du QA enrichi par du RAG. Pour le GEO, structurer son contenu sous forme de paires question/réponse facilite l'extraction par les LLM.

FAQPage Schema

Schéma JSON-LD marquant une page comme une foire aux questions.

Le schéma FAQPage (issu de schema.org) marque explicitement une liste de questions/réponses sur une page web. Quand un site déclare un FAQPage valide, Google peut afficher les questions en accordéon dans la SERP (rich result), et les LLM peuvent extraire directement les paires Q/R pour leurs réponses. C'est l'un des schémas les plus rentables pour le AEO/GEO.

🔍 SEO classique

SEO (Search Engine Optimization)

Discipline qui optimise la visibilité d'un site dans les moteurs de recherche traditionnels.

Le Search Engine Optimization regroupe les techniques d'optimisation on-page (contenu, structure, vitesse), technique (crawl, indexation, schemas) et off-page (backlinks, mentions). Né au début des années 2000, le SEO reste fondamental même à l'ère du GEO : les LLM s'appuient en partie sur l'index Google pour leurs réponses, et un bon SEO renforce le GEO. Les deux disciplines sont complémentaires, pas concurrentes.

Crawl / Crawler

Processus par lequel un robot parcourt automatiquement les pages d'un site pour les analyser.

Le crawl désigne la visite automatisée des pages web par un robot (crawler ou spider). Googlebot pour Google, Bingbot pour Bing, GPTBot pour ChatGPT — chaque moteur a ses crawlers. Le crawl est la première étape : sans crawl, pas d'indexation, pas de visibilité. Le fichier robots.txt contrôle quels crawlers peuvent accéder à quelles parties du site.

Indexation

Inclusion d'une page dans la base de données interrogeable d'un moteur de recherche.

Après le crawl, le moteur indexe la page : il l'analyse, en extrait les mots-clés, les entités et les signaux de pertinence, puis l'ajoute à son index. Seules les pages indexées peuvent apparaître dans les résultats. Une page peut être crawlée mais non indexée (filtrée pour duplicate content, low quality, noindex…). Google Search Console permet de suivre le ratio pages découvertes / indexées.

Canonical URL

URL officielle déclarée pour une page, quand plusieurs URLs servent un même contenu.

La balise <link rel="canonical" href="..."> indique aux moteurs quelle URL est la version canonique d'une page, quand plusieurs URLs renvoient un contenu identique ou similaire (versions HTTP/HTTPS, avec/sans www, paramètres URL, tracking…). Un canonical mal configuré entraîne du duplicate content et de la dispersion d'autorité. C'est l'un des fondamentaux SEO les plus souvent mal implémentés.

Sitemap XML

Fichier listant les URLs d'un site, soumis aux moteurs pour faciliter l'indexation.

Un sitemap XML est un fichier au format XML qui liste les pages d'un site, avec optionnellement leur date de mise à jour, leur priorité et leur fréquence de changement. Il aide les crawlers à découvrir rapidement toutes les pages d'un site, surtout pour les sites volumineux ou peu maillés. Le sitemap est déclaré dans le robots.txt et soumis manuellement à Google Search Console et Bing Webmaster Tools.

Robots.txt

Fichier placé à la racine d'un site qui indique aux crawlers quelles pages crawler ou non.

Le fichier /robots.txt est lu par tous les crawlers respectueux du protocole d'exclusion (REP). Il contient des directives User-agent (à qui s'adresse la règle) et Allow / Disallow (ce qui est permis ou interdit). Il peut aussi déclarer la position du sitemap. Important : robots.txt ne garantit pas la non-indexation (un crawler malveillant peut l'ignorer) — pour cela, utiliser noindex dans la balise meta robots.

Meta description

Résumé d'une page affiché sous le lien dans les résultats de recherche.

La balise <meta name="description" content="..."> fournit aux moteurs un résumé de la page. Google ne l'utilise pas comme facteur de ranking direct, mais elle est souvent affichée telle quelle dans les SERP, ce qui impacte fortement le CTR. Longueur optimale : 120 à 160 caractères (au-delà, troncature dans les résultats). Une meta description bien rédigée est cruciale pour le AEO/GEO : les LLM s'en servent comme indication forte sur le sujet de la page.

Title tag

Titre de la page tel qu'affiché dans l'onglet du navigateur et dans les résultats de recherche.

La balise <title> est l'un des signaux SEO les plus importants : c'est le titre principal de la page dans les SERP. Longueur optimale : 50 à 60 caractères (au-delà, troncature). Doit contenir le mot-clé principal et inciter au clic. Pour le GEO, un title clair aide les LLM à comprendre et à mentionner correctement la source.

Headings H1, H2, H3

Balises HTML hiérarchisant les titres et sous-titres d'une page.

Les balises <h1> à <h6> structurent le contenu d'une page selon une hiérarchie : <h1> est le titre principal (un seul par page), <h2> les grandes sections, <h3> les sous-sections, etc. Cette hiérarchie aide les crawlers SEO ET les LLM à comprendre la structure logique de l'information. Un bon outline (plan H1>H2>H3) est l'un des prérequis du AEO.

Backlink

Lien hypertexte pointant d'un site externe vers votre site.

Un backlink (ou lien retour) est un lien externe qui pointe vers une page de votre site. Le nombre, la qualité et la diversité des backlinks constituent l'un des signaux historiques majeurs du SEO (cœur du PageRank originel de Google). Pour le GEO, les backlinks restent importants : les LLM s'appuient en partie sur l'autorité externe d'un site pour décider de le citer.

Anchor text

Texte cliquable d'un lien hypertexte, visible par l'utilisateur.

L'anchor text est le texte affiché d'un lien (ex : « cliquez ici », « notre guide GEO », le nom de la marque). Pour le SEO, la variété des ancres pointant vers une page envoie un signal sémantique aux moteurs sur le sujet de la page cible. Une suroptimisation d'ancres exactes (toutes identiques au mot-clé) peut être pénalisée. Le mix recommandé : 15 % exactes, 20 % partielles, 25 % marque, 20 % descriptives, 10 % URL nue, 10 % génériques.

Domain Authority (DA)

Score (0-100) attribué à un domaine pour estimer son autorité SEO globale.

La Domain Authority est une métrique tierce (créée par Moz, avec des équivalents : Domain Rating de Ahrefs, Trust Flow de Majestic) qui agrège la qualité et la quantité des backlinks pointant vers un domaine. Score entre 0 et 100, échelle logarithmique. Aucun lien officiel avec le PageRank Google, mais corrélation observée. Pour le GEO, l'autorité de domaine reste un signal important (un LLM cite plus volontiers un site reconnu).

Core Web Vitals (LCP, INP, CLS)

Métriques de performance Google mesurant l'expérience utilisateur réelle.

Les Core Web Vitals sont 3 indicateurs Google : LCP (Largest Contentful Paint, vitesse d'affichage du contenu principal, cible < 2,5 s), INP (Interaction to Next Paint, réactivité aux clics, cible < 200 ms) et CLS (Cumulative Layout Shift, stabilité visuelle, cible < 0,1). Facteur de ranking confirmé depuis 2021. Une page rapide est mieux indexée, mieux notée et mieux exploitée par les LLM.

Schema.org / JSON-LD

Vocabulaire structuré standardisé pour décrire le contenu d'une page de manière machine-lisible.

Schema.org est un vocabulaire ouvert co-développé par Google, Microsoft, Yahoo et Yandex, qui définit des types (Article, Person, Product, FAQPage, LocalBusiness, Organization…) et leurs propriétés. Il est généralement implémenté en JSON-LD (JavaScript Object Notation for Linked Data), inséré dans un <script type="application/ld+json"> dans le <head>. Les schémas sont essentiels pour le AEO, le GEO et l'obtention de rich results dans Google.

Structured data

Données contextuelles ajoutées à une page selon un format normalisé.

Les structured data transforment du contenu HTML en information machine-lisible. Un article peut ainsi déclarer son auteur, sa date de publication, son temps de lecture, ses entités associées, ses sources… Les structured data sont la matière première des LLM modernes : ils s'en servent pour comprendre QUI dit QUOI, QUAND et avec quelle AUTORITÉ. Sans schemas riches, un site est invisible aux yeux des moteurs IA.

SERP (Search Engine Results Page)

Page de résultats affichée par un moteur de recherche en réponse à une requête.

La SERP est la page que Google (ou Bing, ou DuckDuckGo) affiche en réponse à une requête. Elle contient les 10 résultats organiques classiques, mais aussi de plus en plus d'éléments dynamiques : AI Overview, Featured Snippet, People Also Ask, Knowledge Panel, ads, images, vidéos, local pack… La structure de la SERP varie selon le type de requête (informationnelle, transactionnelle, navigationnelle).

Long tail keywords

Requêtes longues et spécifiques, moins concurrentielles mais à fort taux de conversion.

Les long tail keywords sont des expressions de 4 mots et plus, très spécifiques (ex : « meilleur consultant GEO pour PME à Lyon » vs « consultant GEO »). Chaque requête a un volume faible mais le cumul représente souvent la majorité du trafic. Les long tails sont particulièrement adaptées au GEO car les utilisateurs formulent leurs prompts en langage naturel, donc long.

Search intent

Objectif réel d'un utilisateur derrière sa requête de recherche.

Le search intent désigne ce que l'utilisateur cherche vraiment à accomplir. 4 catégories classiques : informationnelle (chercher de l'info), navigationnelle (aller sur un site précis), commerciale (comparer avant achat) et transactionnelle (acheter). Optimiser pour l'intent — et pas seulement le mot-clé — est aujourd'hui essentiel : un site qui répond bien à l'intent ranke mieux et obtient plus de citations IA.

🏆 E-E-A-T et autorité

E-E-A-T

Critères qualité de Google évaluant la fiabilité d'un site et de ses auteurs (Experience, Expertise, Authoritativeness, Trustworthiness).

L'E-E-A-T est un acronyme central des Search Quality Rater Guidelines de Google. Il évalue : Experience (l'expérience vécue de l'auteur sur le sujet), Expertise (le niveau d'expertise démontré), Authoritativeness (l'autorité reconnue dans le domaine) et Trustworthiness (la confiance générale envers le site). C'est l'axe de qualité le plus important pour les sujets YMYL (Your Money Your Life : santé, finance, droit). Pour le GEO, l'E-E-A-T est le critère #1 de citation par les LLM.

Person schema

Schéma JSON-LD décrivant une personne réelle (auteur, dirigeant, expert).

Le schéma Person (Schema.org) déclare une personne avec ses propriétés : nom, fonction, employeur, biographie, image, profils sociaux (sameAs)… Combiné à un schéma Article qui pointe vers la Person comme auteur, il signale aux moteurs et aux LLM que le contenu est attribué à un humain identifiable et vérifiable. C'est le levier le plus efficace pour activer l'E-E-A-T humain.

Organization schema

Schéma JSON-LD décrivant une organisation (entreprise, association, agence).

Le schéma Organization déclare une organisation : nom, URL, logo, date de fondation, profils sociaux, contact… Souvent combiné à LocalBusiness (pour le SEO local) ou à Service (pour les services proposés). C'est l'équivalent organisationnel du Person schema : il établit l'identité de l'éditeur du site.

Author bio

Bloc présentant l'auteur d'un article, visible et idéalement balisé en JSON-LD.

Un author bio est un encart (généralement en fin d'article ou en sidebar) qui présente l'auteur : nom, photo, fonction, expertise, profils sociaux, lien vers les autres articles. Pour l'E-E-A-T, l'author bio est obligatoire dès lors que le contenu engage l'expertise d'une personne (article médical, juridique, financier, technique). À coupler avec un schéma Person pour maximiser l'effet.

Author Central (Amazon)

Page auteur officielle d'Amazon, listant tous les livres publiés par un auteur.

Amazon Author Central est la page officielle d'un auteur sur Amazon, accessible via une URL du type amazon.fr/Nom-Auteur/e/B0XXXXXXXX. Elle agrège tous les ouvrages publiés, la biographie et les liens vers les profils sociaux. C'est une URL de référence majeure pour le sameAs d'un schéma Person : elle prouve la production éditoriale tangible (livres, ISBN, ventes vérifiables), un des signaux forts d'E-E-A-T pour les LLM.

🕷 Crawlers IA

GPTBot

Crawler d'OpenAI qui collecte le contenu web pour alimenter et entraîner ChatGPT.

GPTBot est le robot d'OpenAI utilisé pour deux usages : (1) crawler le web pour les requêtes en temps réel quand ChatGPT navigue, et (2) collecter du contenu pour entraîner les futures versions de GPT. Bloquable via User-agent: GPTBot dans robots.txt. Pour le GEO, autoriser explicitement GPTBot est essentiel : un site bloqué ne sera jamais cité par ChatGPT.

ClaudeBot

Crawler d'Anthropic qui collecte le contenu web pour Claude.

ClaudeBot est l'équivalent Anthropic de GPTBot. Il existe sous plusieurs noms (ClaudeBot, anthropic-ai, Claude-Web) selon l'usage (entraînement vs recherche en temps réel). Bloquable via robots.txt, mais comme GPTBot, autoriser ClaudeBot est nécessaire pour être cité par Claude.

PerplexityBot

Crawler de Perplexity AI qui parcourt le web en temps réel pour répondre aux requêtes.

PerplexityBot parcourt activement le web pour fournir à Perplexity les sources les plus à jour. C'est le crawler le plus important à autoriser pour les sites visant le GEO, car Perplexity est le moteur IA le plus transparent sur ses citations (avec liens cliquables vers les sources).

Google-Extended

Crawler de Google dédié à l'entraînement de Gemini et des produits IA Google.

Google-Extended est un crawler distinct de Googlebot (qui indexe pour la recherche classique). Il est dédié à l'alimentation des modèles d'IA générative de Google (Gemini, AI Overviews). Un site peut autoriser Googlebot (pour rester dans l'index Google) tout en bloquant Google-Extended (pour refuser d'alimenter Gemini). En GEO, l'autoriser est essentiel pour apparaître dans les AI Overviews et les réponses Gemini.

Pour aller plus loin

llmstxt.org — Standard émergent pour signaler la structure d'un site aux LLM
Schema.org — Vocabulaire structuré officiel
arxiv.org/abs/2311.09476 — Papier seminal GEO : Generative Engine Optimization (Aggarwal et al., Princeton, 2023)
arxiv.org/abs/2005.11401 — Papier seminal RAG : Retrieval-Augmented Generation (Lewis et al., 2020)
Google Search Central — Documentation officielle Google

Article révisé le 24 juin 2026 par

Kévin Papot

Co-fondateur de NEWP (agence française de référencement créée en 2012) et consultant SEO, GEO & SEA. Plus de 13 ans d'expérience en référencement naturel et marketing digital.

Co-auteur avec Sébastien Joumel de plusieurs ouvrages dont Le SEO est mort. Vive l'AEO (2025), GEO — Comment dominer les moteurs IA génératifs ? et Votre Fiche Google en haut de l'affiche. Également auteur de l'Index lithothérapeutique (2020) et co-fondateur de france-mineraux.fr (1 million+ visiteurs/mois).

Tous ses livres sur Amazon · LinkedIn · Sa page sur NEWP · France Minéraux