Je pratique le SEO technique depuis 2009. C’est un domaine que je connais bien, que j’applique au quotidien pour mes clients — petites structures, indépendants, grands groupes de presse — et qui n’a jamais cessé d’évoluer. Justement parce qu’il évolue vite, je reste en veille permanente : nouvelles pratiques, mises à jour des moteurs, changements de comportement des internautes.
C’est dans cette logique que je partage ici cette vidéo de Lucas, qui reçoit Jérôme Salomon, expert SEO technique chez Oncrawl. Elle couvre de manière claire et concrète les fondamentaux du SEO technique — crawlabilité, indexabilité, maillage interne — et aborde un sujet qui me semble désormais incontournable : l’analyse de logs appliquée aux bots des LLM comme ChatGPT ou Claude. Un angle encore peu documenté, qui change la façon dont on mesure sa visibilité en ligne.
Que vous soyez déjà familier du SEO technique ou que vous souhaitiez mieux comprendre ce qui se passe sous le capot de votre site, cet épisode vaut le détour.
Qu’est-ce que le SEO technique, vraiment ?
Jérôme résume la chose simplement : le SEO technique, c’est optimiser son site pour les crawlers de Google — ces bots qui parcourent vos pages, récupèrent le contenu et permettent l’indexation et le positionnement dans les résultats de recherche. Il se décompose en deux grands axes.
La crawlabilité désigne la facilité avec laquelle un bot peut parcourir votre site. Elle dépend du maillage interne, des performances serveur, de l’absence de liens cassés et d’un fichier robots.txt bien configuré. L’indexabilité concerne les signaux envoyés à Google pour lui indiquer quelles pages méritent d’être dans son index : balises canoniques, meta robots, hreflang pour les sites multilingues, sitemap XML.
Et puis il y a les logs serveur — la couche de réalité que les SEO négligent trop souvent. Un crawler simule le comportement de Google, les logs, eux, vous montrent ce que Google fait vraiment sur votre site.
A lire : Recherche de mots-clés comme un pro dans la Google Search Console
Le SEO technique est-il réservé aux gros sites ?
Pas tout à fait. Plus un site est grand — e-commerce avec des centaines de catégories, millions de fiches produits — plus les enjeux techniques deviennent critiques. La notion de crawl budget (le nombre de pages que Google peut se permettre de visiter sur votre site sur une période donnée) n’a pas grand sens sur un site de 2 000 pages, car Google les visitera toutes de toute façon.
En revanche, crawler son site reste utile quelle que soit sa taille. WordPress, Prestashop et autres CMS génèrent automatiquement des pages de tags, de filtres, de pagination — des pages que vous n’avez pas forcément vues et qui peuvent représenter des milliers d’URLs inutiles. Sans audit de crawl, vous avancez à l’aveugle.
Combien de fois crawler son site ?
Jérôme recommande une double stratégie. D’un côté, un monitoring journalier sur un échantillon représentatif : vos pages business clés, un template de chaque type (catégorie, produit, article, pagination). De l’autre, un crawl complet mensuel. Les équipes qui ont le luxe d’agir en preprod comparent systématiquement prod et preprod avant toute mise en ligne, pour éviter les régressions.
Les erreurs de SEO technique les plus fréquentes
Côté crawlabilité, les suspects habituels sont bien connus : liens cassés (404), robots.txt mal configuré qui bloque des ressources importantes, et pages orphelines — des pages qui n’ont plus aucun lien entrant et deviennent invisibles pour Google.
Côté indexabilité, Jérôme pointe une erreur moins visible mais très dommageable sur les gros sites : avoir plus de liens dans le maillage interne vers des pages non canoniques que vers des pages canoniques. Vous dites à Google dans la balise que telle URL est la référence, mais dans vos liens internes, vous pointez massivement vers les variantes. C’est un signal contradictoire que Google doit arbitrer — et il n’arbitre pas toujours dans votre sens.
Le ratio fondamental à surveiller après un crawl : combien de pages crawlées sont réellement indexables ? Si seulement 50 % de vos 2 000 pages crawlées sont indexables, vous avez l’autre moitié qui consomme du crawl budget pour rien.
Optimiser le maillage interne : profondeur, jus SEO et silotage sémantique
Le maillage interne est un levier SEO technique d’une puissance souvent sous-exploitée. Google l’utilise pour comprendre la structure de votre site et évaluer l’importance relative de chaque page. Plusieurs mécanismes entrent en jeu.
La profondeur de clic
Plus une page est loin de la homepage en nombre de clics, plus elle est difficile à trouver pour Google et moins elle a de chances de bien se positionner. L’objectif est de raccourcir le chemin vers les pages importantes : multiplier les entrées dans la navigation, optimiser la pagination pour qu’elle expose les pages plutôt que de les enterrer, et créer des liens contextuels depuis des pages à forte autorité vers des pages profondes qui ont besoin de visibilité.
Exemple concret : un article qui performe très bien va naturellement se retrouver en pagination 10 avec le temps, car les articles récents sont listés en premier. Mais si vous créez un lien vers cet article depuis la homepage ou une rubrique stratégique, il ne se trouve plus qu’à deux clics de la racine — et il conserve sa puissance SEO.
Le fil d’Ariane
Le fil d’Ariane n’est pas qu’un outil UX. Il redistribue le jus SEO vers les pages de structure : les pages rubriques reçoivent automatiquement des liens de toutes leurs pages enfants, ce qui renforce leur autorité. Il doit être présent sur toutes les pages, même si on le repousse en bas sur mobile pour des raisons d’espace.
Le silotage sémantique et l’obfuscation de liens
Le maillage évolue vers une logique de surfer raisonnable sémantique : Google ne valorise plus les liens entre pages sans rapport thématique. Jérôme a mis en pratique ce principe chez un groupe immobilier où cohabitaient location, immobilier neuf et investissement — trois audiences très différentes. La solution : obfusquer les liens de navigation (menu et footer) partout sauf sur la homepage, de façon à ne servir que des liens contextuels à l’univers dans lequel se trouve l’utilisateur. Résultat : aucun signal de maillage parasite entre univers sans lien sémantique.
Sur un CMS classique comme WordPress, les blocs de liens (produits similaires, articles liés) sont générés automatiquement et souvent peu pertinents. Il vaut mieux prendre le temps d’analyser ces blocs que de les laisser diluer votre jus SEO vers des pages sans rapport.
A lire : Loi de Pareto en SEO : idées de stratégies rapides et efficaces
L’analyse de logs : comment la mettre en place et quoi en tirer
Les logs serveur sont des fichiers texte bruts générés par votre hébergeur. Chaque ligne correspond à une visite — humain ou bot — et contient l’adresse IP, la date et l’heure, l’URL visitée, le status code, le user agent et parfois le temps de réponse serveur. C’est avec le user agent et la vérification de l’IP que l’on identifie formellement Googlebot — un bot peut se faire passer pour Google, mais pas usurper les plages IP déclarées par Google dans sa documentation.
Comment accéder à vos logs
Chez la plupart des hébergeurs (O2Switch, OVH, etc.), les fichiers de logs sont accessibles directement depuis votre interface d’administration. Vous pouvez les télécharger et les ouvrir dans un éditeur de texte, les importer dans un outil dédié comme Oncrawl, ou — pour des volumes modestes — les passer dans ChatGPT pour une première analyse rapide.
A lire : Créez votre site internet en 1h avec O2Switch et WordPress
Les trois métriques clés à surveiller
Dans un outil comme Oncrawl, trois indicateurs structurent l’analyse : les bot hits (l’équivalent des visites côté bot), les pages crawlées (nombre de pages uniques visitées) et les pages crawlées pour la première fois — cette dernière métrique est particulièrement utile pour détecter les ouvertures accidentelles de nouvelles facettes ou paramètres d’URL que vous n’aviez pas prévus.
La fréquence de crawl : un signal de bonne santé SEO
La fréquence de crawl mesure combien de fois par jour Google revient sur vos pages clés. Elle doit être supérieure à votre rythme de publication ou de mise à jour. Si vous publiez 100 articles par jour mais que Google ne revient que 50 fois sur votre page catégorie, la moitié de vos contenus sont découverts en retard. Sur des sujets d’actualité, cela peut vous faire perdre la course face à vos concurrents.
La règle des 130 jours et la désindexation silencieuse
Une étude d’Alexis Rylco a mis en évidence ce que les SEO appellent désormais la règle des 130 jours : si Google ne visite pas une page pendant 130 jours, elle est probablement désindexée. En configurant votre analyse de logs sur cette fenêtre temporelle, vous pouvez auditer précisément quelles pages sont à risque et prendre des mesures avant que la désindexation ne soit consommée — retravail du contenu, renforcement du maillage interne, soumission dans la Search Console.
Les bots des LLM sur votre site : ce que vous pouvez en apprendre
C’est la dimension la plus récente et la plus stimulante de l’analyse de logs. Les grands modèles de langage envoient eux aussi des bots sur le web, et ils ont des comportements distincts selon leur objectif.
On distingue deux grandes catégories. Les bots d’entraînement (GPTBot, CCBot pour Common Crawl) collectent du contenu pour enrichir les corpus d’entraînement des modèles. Ils se comportent comme des crawlers classiques, suivent les liens, mais ignorent les redirections — ils ont besoin d’un 200 ou d’un 304. Les bots de recherche temps réel (ChatGPT-User, Claude-User, PerplexityBot) se déclenchent quand un utilisateur pose une question qui dépasse les connaissances du modèle ou qui nécessite une information récente. Ces bots viennent récupérer du contenu en direct pour alimenter la réponse avec une citation.
Ce second type de bot est un indicateur précieux de votre visibilité dans les LLM. Vous ne connaîtrez pas la requête exacte posée par l’utilisateur, mais si ChatGPT-User est venu sur votre page « meilleure planche de surf pour débutants », c’est qu’une personne a posé une question sur ce sujet et que votre contenu a été jugé pertinent pour y répondre.
Jérôme souligne une limite importante : quand un LLM répond à partir de sa mémoire — faits historiques, connaissances générales — il ne déclenche aucune recherche. Votre marque peut être citée sans laisser la moindre trace dans vos logs. En revanche, tout ce qui touche à l’actualité, aux produits récents, aux recommandations d’outils ou d’agences génère des recherches et donc des visites de bots — et ça, vous pouvez le mesurer.
Dernière observation de Jérôme : le volume de trafic bot a explosé ces dernières années et la tendance va s’accélérer avec les agents IA (le mode agent d’OpenAI utilise le user agent ChatGPT-User). Suivre ces bots dans le temps devient une métrique de visibilité à part entière, complémentaire du trafic organique classique.
La checklist pour passer à l’action
Voici les actions concrètes à mettre en place suite à cet épisode, par ordre de priorité :
- Lancer un crawl complet de votre site avec votre outil de crawl favoris et noter le ratio pages crawlées / pages indexables.
- Corriger en priorité les liens cassés (404) et les pages orphelines.
- Vérifier que votre robots.txt ne bloque pas de ressources importantes.
- Auditer les balises rel canonical : vos liens internes pointent-ils majoritairement vers les URLs canoniques ou vers des variantes ?
- Analyser la profondeur de clic de vos pages clés depuis la homepage : aucune page prioritaire ne devrait être à plus de 3-4 clics.
- Vérifier la pertinence sémantique de votre maillage (footer, blocs « articles liés », produits similaires).
- Récupérer vos logs serveur depuis votre hébergeur et identifier les bots présents (Googlebot mobile vs desktop, bots LLM).
- Mettre en place un suivi de la fréquence de crawl sur vos pages de découverte (catégories, homepage du blog).
- Appliquer la règle des 130 jours pour auditer vos pages à risque de désindexation.
- Commencer à monitorer les bots ChatGPT-User, Claude-User et PerplexityBot pour mesurer votre visibilité LLM.
Le crawl budget désigne le nombre de pages que Google peut se permettre de visiter sur votre site sur une période donnée. Sur les gros sites (e-commerce, médias), Google peut passer du temps à crawler des pages inutiles au lieu de découvrir vos pages stratégiques. Optimiser son maillage interne et supprimer ou noindexer les pages sans valeur permet de concentrer ce budget sur les pages qui comptent vraiment pour votre SEO.
Chez la plupart des hébergeurs mutualisés (O2Switch, OVH, etc.), les fichiers de logs sont disponibles depuis votre interface d’administration ou votre accès FTP. Pour les sites sur serveur dédié ou VPS, votre équipe technique peut vous fournir ces fichiers. Ils se présentent sous forme de fichiers texte bruts que vous pouvez analyser manuellement, importer dans un outil dédié comme Oncrawl, ou analyser via un LLM pour de petits volumes.
La balise canonique indique à Google quelle est l’URL « officielle » d’une page lorsque plusieurs URLs présentent le même contenu (variantes de couleur, paramètres de campagne, pagination, etc.). Elle évite que Google interprète ces variantes comme du contenu dupliqué et permet de concentrer le signal SEO sur la version principale. Le maillage interne doit pointer majoritairement vers les URLs canoniques pour ne pas envoyer de signal contradictoire.
Quand un utilisateur pose une question nécessitant une information récente, ChatGPT, Claude ou Perplexity déclenchent une recherche en temps réel et envoient un bot sur des pages web pour enrichir leur réponse. Ces bots ont des user agents spécifiques (ChatGPT-User, Claude-User, PerplexityBot). En analysant vos logs serveur, vous pouvez identifier quelles pages ces bots visitent et en déduire les thématiques sur lesquelles votre site est cité dans les réponses des LLM — un indicateur émergent de votre visibilité dans l’IA générative.
Selon une étude d’Alexis Rylco utilisant l’URL Inspection Tool de Google Search Console, une page non visitée par Googlebot pendant 130 jours consécutifs est très probablement désindexée. En configurant une analyse de logs sur cette fenêtre temporelle, vous pouvez identifier les pages à risque avant qu’elles disparaissent des résultats de recherche et agir en conséquence : amélioration du contenu, renforcement du maillage interne ou soumission dans la Search Console.