Schema.org et GEO : pourquoi les données structurées sont devenues le langage des LLMs
Les LLMs ne lisent pas une page web comme un humain. Ils s'appuient massivement sur Schema.org pour comprendre ce qu'est une entreprise, un produit ou un service. Voici comment structurer ses données pour devenir lisible par les IA.
Lorsqu'un humain arrive sur une page d'entreprise, il identifie en quelques secondes le nom de la marque, son secteur, ses produits, ses tarifs, ses coordonnées. Il s'appuie pour cela sur une combinaison d'indices visuels — la position du logo, la hiérarchie typographique, la présence d'un footer — que trente ans d'usage du web ont rendus implicites.
Un LLM, lui, n'a pas cette mémoire collective. Lorsque ses crawlers parcourent votre site, ils traitent un flux de balises HTML brutes et tentent d'en extraire un sens. Plus le contenu est ambigu, moins le modèle est capable d'établir avec certitude que tel paragraphe parle bien de votre entreprise, de votre produit ou de votre tarif. C'est précisément la fonction de Schema.org : remplacer l'ambiguïté du HTML décoratif par une déclaration explicite et machine-readable de ce qu'est chaque élément.
Une norme ancienne devenue critique
Schema.org existe depuis 2011, à l'initiative conjointe de Google, Microsoft,
Yahoo et Yandex (Schema.org). Le
vocabulaire couvre aujourd'hui plus de huit cents types d'entités, depuis
Organization jusqu'à MedicalProcedure en passant par LocalBusiness,
Product, Service, Article ou FAQPage. Chaque type s'accompagne d'un
ensemble de propriétés normées : un Product peut déclarer son name, sa
description, son brand, son offers, son aggregateRating.
Pendant une décennie, ce vocabulaire a surtout été utilisé pour décorer les résultats Google : les fameuses étoiles d'avis, les fiches produit, les recettes affichées avec photo et temps de cuisson. L'arrivée des LLMs a changé la donne. Ces modèles, contraints par la fenêtre de contexte et par le coût de l'inférence, traitent en priorité les signaux les plus denses en information — et Schema.org est, par construction, le plus dense des signaux disponibles sur une page web.
Une étude publiée par Princeton et Georgia Tech en 2024 sur l'optimisation pour les moteurs génératifs a montré qu'à contenu rédactionnel égal, l'ajout de données structurées sémantiques augmente significativement la probabilité de citation par les LLMs. L'effet est particulièrement marqué pour les requêtes commerciales, où le modèle doit identifier rapidement le périmètre d'activité d'une entreprise candidate.
Les types qui comptent réellement pour le GEO
Sur les huit cents types disponibles, une dizaine concentre l'essentiel de la valeur pour une entreprise francophone en B2B ou B2C de service.
Le type Organization constitue le socle. Il déclare l'identité de
l'entreprise : nom légal, logo, adresse, numéro de téléphone, profils sociaux,
identifiants administratifs (SIREN en France, BCE en Belgique). C'est ce
schéma qui permet à un LLM de répondre correctement à des questions du type
« qui dirige cette société ? » ou « où est basée cette entreprise ? ».
Le type LocalBusiness étend Organization pour les activités à
implantation physique. Il ajoute les horaires d'ouverture, la zone de service,
les moyens de paiement acceptés. Pour un commerce ou un cabinet de
prestations, il est essentiel.
Le type Service décrit chaque prestation vendue. Il est trop souvent
oublié au profit de simples pages descriptives. Or c'est précisément le type
que le LLM cherchera lorsqu'un utilisateur posera une question de type « qui
propose tel service en France ». Un schéma Service correctement renseigné
— avec provider, areaServed, serviceType, offers — est l'un des
signaux les plus discriminants pour une PME.
Le type Product joue le même rôle pour les biens. Il accepte des propriétés
très opérationnelles comme gtin, mpn, brand, aggregateRating,
review, qui aident le modèle à différencier votre offre de celle d'un
concurrent.
Le type FAQPage, associé à Question et Answer, mérite une mention
particulière. Lorsque les LLMs cherchent une réponse précise à une question
formulée par un utilisateur, ils privilégient massivement les pages qui
déclarent explicitement contenir cette question sous forme de FAQ
structurée. C'est probablement le levier au meilleur rapport effort-impact
sur l'ensemble de la palette Schema.org.
Le type Article ou BlogPosting structure les contenus éditoriaux. Il
permet au LLM de connaître l'auteur, la date de publication, le périmètre
thématique. Pour un blog d'expertise visant les citations LLM, il devrait
être systématique.
Enfin, le type BreadcrumbList aide les modèles à comprendre l'arborescence
du site et à situer chaque page dans son contexte. Il améliore la précision
des citations vers une page profonde plutôt que vers la page d'accueil.
Ce que les LLMs lisent réellement
Schema.org peut être implémenté de trois façons : microdonnées HTML,
RDFa, ou JSON-LD. Cette dernière forme est de très loin la plus
recommandée — c'est celle que Google privilégie depuis 2015 et celle que
les crawlers IA traitent le plus efficacement. Un bloc JSON-LD se place
typiquement dans le <head> de la page, isolé du HTML visible :
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "Organization",
"name": "Dopageo",
"url": "https://www.dopageo.ai",
"logo": "https://www.dopageo.ai/logo.svg",
"description": "Plateforme française d'audit GEO pour les PME francophones.",
"founder": {
"@type": "Person",
"name": "Frédéric Dupeyron"
},
"address": {
"@type": "PostalAddress",
"streetAddress": "136 rue Amelot",
"postalCode": "75011",
"addressLocality": "Paris",
"addressCountry": "FR"
}
}
</script>
Lorsqu'un crawler IA parcourt cette page, il n'a pas à inférer le nom de
l'entreprise depuis le titre <h1> ou depuis le footer : il le lit
directement dans une déclaration normée. Le gain en fiabilité est massif,
notamment lorsque le site comporte du contenu tiers (témoignages, articles
invités, mentions de partenaires) qui pourrait introduire de la confusion.
Les erreurs fréquentes
Trois erreurs reviennent constamment sur les sites francophones audités.
La première est l'absence pure et simple de Schema.org. Une majorité des sites de PME françaises et belges n'embarquent aucun balisage structuré, ou seulement un balisage automatique injecté par leur CMS — généralement incomplet et parfois incorrect. Sur un échantillon récent de cent sites de PME du secteur tertiaire, SISTRIX relevait moins de 15% de couverture Schema.org significative.
La deuxième est l'incohérence entre les déclarations Schema.org et le
contenu visible. Un site déclare en JSON-LD que son entreprise est basée à
Lyon, alors que le footer mentionne Paris. Ou un schéma Service annonce
un service que l'entreprise ne propose plus depuis deux ans. Ces
incohérences, indétectables à l'œil humain, sont précisément ce que les LLMs
détectent et pénalisent : un signal contradictoire est un signal qui réduit
la confiance, donc la probabilité de citation.
La troisième est la sur-déclaration. Certains sites, en cherchant à bien
faire, multiplient les schémas redondants ou non pertinents. Trois schémas
Organization empilés sur la même page, des Product qui doublonnent les
Service, des FAQPage qui ne contiennent pas réellement de questions et
réponses. Cette inflation déclarative dégrade le signal et peut, à terme,
faire passer le site sous le radar des crawlers IA.
Méthodologie d'implémentation
Pour une entreprise qui part de zéro, l'ordre de mise en œuvre suivant permet d'obtenir l'essentiel de la valeur en quelques jours.
Commencer par un schéma Organization ou LocalBusiness global, déclaré
sur toutes les pages du site. C'est le socle d'identité.
Ajouter ensuite, sur chaque page de service ou de produit, le schéma
Service ou Product correspondant, avec les propriétés essentielles
renseignées : name, description, provider, offers, areaServed.
Compléter sur les pages éditoriales avec Article ou BlogPosting, en
soignant en particulier author, datePublished et mainEntityOfPage.
Identifier les cinq à dix questions les plus fréquentes posées par les
prospects, et créer une page FAQ structurée en FAQPage. Cette page se
positionne très vite, à la fois sur Google et dans les LLMs.
Vérifier enfin la cohérence globale via le Rich Results Test de Google et le Schema Markup Validator. Ces deux outils, gratuits, identifient la majorité des erreurs de syntaxe et d'incohérence.
Le lien avec le diagnostic GEO
Le diagnostic dopageo.ai inclut une analyse automatisée des balisages Schema.org du site audité. Il vérifie la présence des types principaux, la complétude des propriétés essentielles, la cohérence avec le contenu rédactionnel, et compare le profil structuré du site à celui de ses concurrents directs. C'est une des composantes les plus discriminantes du score global, car elle reflète à la fois la maturité technique du site et sa préparation à être correctement compris par les moteurs IA.
Ce qu'il faut retenir
Schema.org n'est pas un sujet de webmaster mais un sujet stratégique. Pour une entreprise francophone qui vise une présence dans les réponses des LLMs, investir dans un balisage structuré complet et cohérent est probablement le levier au meilleur rendement, devant même la production de nouveaux contenus. Le travail est borné dans le temps, le coût est faible, et l'effet est durable : un schéma JSON-LD bien conçu reste valide pendant des années et continue à être lu à chaque crawl.
L'inverse est tout aussi vrai. Une entreprise qui n'investit pas dans Schema.org laisse à ses concurrents le bénéfice d'être correctement identifiée par les LLMs. Et comme cette identification conditionne la citation, l'écart se creuse à chaque requête posée par un prospect.
Pour approfondir : Qu'est-ce que le GEO, Comment être cité par les LLMs et Analyse concurrentielle GEO.