Retour au blog
    ·GEO · Technique · Schema.org

    Schema.org et GEO : pourquoi les données structurées sont devenues le langage des LLMs

    Les LLMs ne lisent pas une page web comme un humain. Ils s'appuient massivement sur Schema.org pour comprendre ce qu'est une entreprise, un produit ou un service. Voici comment structurer ses données pour devenir lisible par les IA.

    Lorsqu'un humain arrive sur une page d'entreprise, il identifie en quelques secondes le nom de la marque, son secteur, ses produits, ses tarifs, ses coordonnées. Il s'appuie pour cela sur une combinaison d'indices visuels — la position du logo, la hiérarchie typographique, la présence d'un footer — que trente ans d'usage du web ont rendus implicites.

    Un LLM, lui, n'a pas cette mémoire collective. Lorsque ses crawlers parcourent votre site, ils traitent un flux de balises HTML brutes et tentent d'en extraire un sens. Plus le contenu est ambigu, moins le modèle est capable d'établir avec certitude que tel paragraphe parle bien de votre entreprise, de votre produit ou de votre tarif. C'est précisément la fonction de Schema.org : remplacer l'ambiguïté du HTML décoratif par une déclaration explicite et machine-readable de ce qu'est chaque élément.

    Une norme ancienne devenue critique

    Schema.org existe depuis 2011, à l'initiative conjointe de Google, Microsoft, Yahoo et Yandex (Schema.org). Le vocabulaire couvre aujourd'hui plus de huit cents types d'entités, depuis Organization jusqu'à MedicalProcedure en passant par LocalBusiness, Product, Service, Article ou FAQPage. Chaque type s'accompagne d'un ensemble de propriétés normées : un Product peut déclarer son name, sa description, son brand, son offers, son aggregateRating.

    Pendant une décennie, ce vocabulaire a surtout été utilisé pour décorer les résultats Google : les fameuses étoiles d'avis, les fiches produit, les recettes affichées avec photo et temps de cuisson. L'arrivée des LLMs a changé la donne. Ces modèles, contraints par la fenêtre de contexte et par le coût de l'inférence, traitent en priorité les signaux les plus denses en information — et Schema.org est, par construction, le plus dense des signaux disponibles sur une page web.

    Une étude publiée par Princeton et Georgia Tech en 2024 sur l'optimisation pour les moteurs génératifs a montré qu'à contenu rédactionnel égal, l'ajout de données structurées sémantiques augmente significativement la probabilité de citation par les LLMs. L'effet est particulièrement marqué pour les requêtes commerciales, où le modèle doit identifier rapidement le périmètre d'activité d'une entreprise candidate.

    Les types qui comptent réellement pour le GEO

    Sur les huit cents types disponibles, une dizaine concentre l'essentiel de la valeur pour une entreprise francophone en B2B ou B2C de service.

    Le type Organization constitue le socle. Il déclare l'identité de l'entreprise : nom légal, logo, adresse, numéro de téléphone, profils sociaux, identifiants administratifs (SIREN en France, BCE en Belgique). C'est ce schéma qui permet à un LLM de répondre correctement à des questions du type « qui dirige cette société ? » ou « où est basée cette entreprise ? ».

    Le type LocalBusiness étend Organization pour les activités à implantation physique. Il ajoute les horaires d'ouverture, la zone de service, les moyens de paiement acceptés. Pour un commerce ou un cabinet de prestations, il est essentiel.

    Le type Service décrit chaque prestation vendue. Il est trop souvent oublié au profit de simples pages descriptives. Or c'est précisément le type que le LLM cherchera lorsqu'un utilisateur posera une question de type « qui propose tel service en France ». Un schéma Service correctement renseigné — avec provider, areaServed, serviceType, offers — est l'un des signaux les plus discriminants pour une PME.

    Le type Product joue le même rôle pour les biens. Il accepte des propriétés très opérationnelles comme gtin, mpn, brand, aggregateRating, review, qui aident le modèle à différencier votre offre de celle d'un concurrent.

    Le type FAQPage, associé à Question et Answer, mérite une mention particulière. Lorsque les LLMs cherchent une réponse précise à une question formulée par un utilisateur, ils privilégient massivement les pages qui déclarent explicitement contenir cette question sous forme de FAQ structurée. C'est probablement le levier au meilleur rapport effort-impact sur l'ensemble de la palette Schema.org.

    Le type Article ou BlogPosting structure les contenus éditoriaux. Il permet au LLM de connaître l'auteur, la date de publication, le périmètre thématique. Pour un blog d'expertise visant les citations LLM, il devrait être systématique.

    Enfin, le type BreadcrumbList aide les modèles à comprendre l'arborescence du site et à situer chaque page dans son contexte. Il améliore la précision des citations vers une page profonde plutôt que vers la page d'accueil.

    Ce que les LLMs lisent réellement

    Schema.org peut être implémenté de trois façons : microdonnées HTML, RDFa, ou JSON-LD. Cette dernière forme est de très loin la plus recommandée — c'est celle que Google privilégie depuis 2015 et celle que les crawlers IA traitent le plus efficacement. Un bloc JSON-LD se place typiquement dans le <head> de la page, isolé du HTML visible :

    <script type="application/ld+json">
    {
      "@context": "https://schema.org",
      "@type": "Organization",
      "name": "Dopageo",
      "url": "https://www.dopageo.ai",
      "logo": "https://www.dopageo.ai/logo.svg",
      "description": "Plateforme française d'audit GEO pour les PME francophones.",
      "founder": {
        "@type": "Person",
        "name": "Frédéric Dupeyron"
      },
      "address": {
        "@type": "PostalAddress",
        "streetAddress": "136 rue Amelot",
        "postalCode": "75011",
        "addressLocality": "Paris",
        "addressCountry": "FR"
      }
    }
    </script>
    

    Lorsqu'un crawler IA parcourt cette page, il n'a pas à inférer le nom de l'entreprise depuis le titre <h1> ou depuis le footer : il le lit directement dans une déclaration normée. Le gain en fiabilité est massif, notamment lorsque le site comporte du contenu tiers (témoignages, articles invités, mentions de partenaires) qui pourrait introduire de la confusion.

    Les erreurs fréquentes

    Trois erreurs reviennent constamment sur les sites francophones audités.

    La première est l'absence pure et simple de Schema.org. Une majorité des sites de PME françaises et belges n'embarquent aucun balisage structuré, ou seulement un balisage automatique injecté par leur CMS — généralement incomplet et parfois incorrect. Sur un échantillon récent de cent sites de PME du secteur tertiaire, SISTRIX relevait moins de 15% de couverture Schema.org significative.

    La deuxième est l'incohérence entre les déclarations Schema.org et le contenu visible. Un site déclare en JSON-LD que son entreprise est basée à Lyon, alors que le footer mentionne Paris. Ou un schéma Service annonce un service que l'entreprise ne propose plus depuis deux ans. Ces incohérences, indétectables à l'œil humain, sont précisément ce que les LLMs détectent et pénalisent : un signal contradictoire est un signal qui réduit la confiance, donc la probabilité de citation.

    La troisième est la sur-déclaration. Certains sites, en cherchant à bien faire, multiplient les schémas redondants ou non pertinents. Trois schémas Organization empilés sur la même page, des Product qui doublonnent les Service, des FAQPage qui ne contiennent pas réellement de questions et réponses. Cette inflation déclarative dégrade le signal et peut, à terme, faire passer le site sous le radar des crawlers IA.

    Méthodologie d'implémentation

    Pour une entreprise qui part de zéro, l'ordre de mise en œuvre suivant permet d'obtenir l'essentiel de la valeur en quelques jours.

    Commencer par un schéma Organization ou LocalBusiness global, déclaré sur toutes les pages du site. C'est le socle d'identité.

    Ajouter ensuite, sur chaque page de service ou de produit, le schéma Service ou Product correspondant, avec les propriétés essentielles renseignées : name, description, provider, offers, areaServed.

    Compléter sur les pages éditoriales avec Article ou BlogPosting, en soignant en particulier author, datePublished et mainEntityOfPage.

    Identifier les cinq à dix questions les plus fréquentes posées par les prospects, et créer une page FAQ structurée en FAQPage. Cette page se positionne très vite, à la fois sur Google et dans les LLMs.

    Vérifier enfin la cohérence globale via le Rich Results Test de Google et le Schema Markup Validator. Ces deux outils, gratuits, identifient la majorité des erreurs de syntaxe et d'incohérence.

    Le lien avec le diagnostic GEO

    Le diagnostic dopageo.ai inclut une analyse automatisée des balisages Schema.org du site audité. Il vérifie la présence des types principaux, la complétude des propriétés essentielles, la cohérence avec le contenu rédactionnel, et compare le profil structuré du site à celui de ses concurrents directs. C'est une des composantes les plus discriminantes du score global, car elle reflète à la fois la maturité technique du site et sa préparation à être correctement compris par les moteurs IA.

    Ce qu'il faut retenir

    Schema.org n'est pas un sujet de webmaster mais un sujet stratégique. Pour une entreprise francophone qui vise une présence dans les réponses des LLMs, investir dans un balisage structuré complet et cohérent est probablement le levier au meilleur rendement, devant même la production de nouveaux contenus. Le travail est borné dans le temps, le coût est faible, et l'effet est durable : un schéma JSON-LD bien conçu reste valide pendant des années et continue à être lu à chaque crawl.

    L'inverse est tout aussi vrai. Une entreprise qui n'investit pas dans Schema.org laisse à ses concurrents le bénéfice d'être correctement identifiée par les LLMs. Et comme cette identification conditionne la citation, l'écart se creuse à chaque requête posée par un prospect.

    Pour approfondir : Qu'est-ce que le GEO, Comment être cité par les LLMs et Analyse concurrentielle GEO.