← Retour au cours
▶ Aperçu gratuit · Leçon offerte

Technical SEO avancé : crawl budget, Core Web Vitals, log analysis, JavaScript SEO

⏱ 720 min · 🎬 Lecon · 🏆 20 XP
🎬
Vidéo en production
Notre équipe pédagogique tourne actuellement cette leçon avec un·e formateur·rice expert·e. Le contenu textuel ci-dessous est complet et utilisable dès maintenant.

Leçon 2 — Technical SEO avancé

Crawl budget, Core Web Vitals, log analysis, JavaScript SEO : le socle technique des sites qui rankent.

🎯 Objectifs pédagogiques

  • Calculer le crawl budget d'un site de 100 000 URL via les logs et la Search Console.
  • Auditer les 3 Core Web Vitals (LCP < 2,5s, CLS < 0,1, INP < 200ms) avec PageSpeed Insights et CrUX.
  • Analyser un fichier de logs Apache/Nginx avec Screaming Frog Log File Analyser pour identifier le gaspillage Googlebot.
  • Choisir entre SSR, SSG, ISR et CSR pour un site Next.js / React selon l'objectif SEO.
  • Configurer robots.txt, sitemap XML segmenté et canonicals sans créer de cannibalisation.

1. Crawl budget : le budget caché de ton site

Le crawl budget est le nombre d'URL que Googlebot accepte de visiter sur ton domaine sur une période donnée. Google le détermine selon deux critères : la crawl capacity (combien ton serveur supporte sans ralentir) et la crawl demand (à quel point tes URL sont jugées dignes d'être recrawlées).

Pour un site < 10 000 URL, le crawl budget n'est généralement pas un problème. Au-delà — e-commerce avec filtres à facettes, marketplaces, médias avec archives profondes — il devient critique. Si Googlebot dépense 70% de son budget sur des URL inutiles (paramètres UTM, tris, pagination infinie), tes nouvelles pages stratégiques mettront des semaines à être indexées.

"For most sites, crawl budget isn't something to worry about. However, if you have a very large site (more than 1 million pages), or a medium-sized site (more than 10,000 pages) with content that changes frequently, you might want to read this guide." — Google Search Central — Managing crawl budget

2. Core Web Vitals : les 3 métriques qui comptent

Depuis mars 2024, Google a remplacé FID par INP (Interaction to Next Paint). Les trois Core Web Vitals officiels sont désormais :

MétriqueQue mesure-t-elleSeuil "Good"Outil principal
LCP (Largest Contentful Paint)Temps d'apparition du plus gros élément visible< 2,5 sPageSpeed Insights, CrUX
CLS (Cumulative Layout Shift)Stabilité visuelle (zéro saut)< 0,1Web Vitals extension
INP (Interaction to Next Paint)Réactivité globale aux clics/taps< 200 msLighthouse, CrUX
TTFB (bonus)Temps de réponse serveur< 600 msWebPageTest

Attention : les outils lab (Lighthouse, PageSpeed) simulent un environnement contrôlé. Les outils field (CrUX, Search Console > Core Web Vitals) mesurent les vraies données utilisateurs sur les 28 derniers jours. Seules les données field comptent pour le ranking.

Optimisations LCP courantes : preload de l'image hero, fetchpriority="high", CDN edge, format AVIF/WebP, suppression des bloquants render (JS/CSS). Pour CLS : réserver les dimensions width/height des images et iframes, éviter les bannières insérées dynamiquement.

3. Log analysis : voir ce que Googlebot voit vraiment

La Search Console te montre ce que Google indexe. Les logs serveur te montrent ce que Googlebot crawle réellement. La différence est énorme. Avec Screaming Frog Log File Analyser (199 GBP/an) ou un script Python sur tes logs Apache/Nginx, tu peux répondre à :

  • Quelles URL Googlebot a crawlé la semaine dernière ? (Réponse souvent surprenante.)
  • Quel % de hits Googlebot va sur des 404 ? (Tolérance < 5%.)
  • Quel % va sur des URL paramétrées non canonical ? (Si > 20% → bloque-les via robots.txt.)
  • Quels User-Agent visitent ton site ? (Google vs Bing vs IA crawlers GPTBot, ClaudeBot.)

Vérifie l'authenticité de Googlebot via DNS reverse : host 66.249.66.1 doit retourner *.googlebot.com. 12% du "trafic Googlebot" déclaré dans les logs est en réalité du fake bot scrapant ton contenu.

4. JavaScript SEO : le piège des SPA

Googlebot exécute le JavaScript via un Chromium headless récent (mis à jour 2024). Mais cette indexation se fait en deux vagues : d'abord le HTML brut (instantané), puis le rendu JS (jusqu'à plusieurs jours plus tard). Pour des sites e-commerce ou médias temps-réel, ce délai est inacceptable.

Architecture recommandée Next.js / React en 2026 :

  • SSG (Static Site Generation) pour pages stables : blog, landing, documentation.
  • ISR (Incremental Static Regeneration) pour fiches produits e-commerce (regen toutes les heures).
  • SSR (Server-Side Rendering) pour contenus dynamiques personnalisés ou multilingues.
  • CSR (Client-Side Rendering) seul = bannir pour pages SEO-critiques.

Tests : view-source: dans Chrome pour voir le HTML brut, puis URL Inspection Tool de la Search Console > "Tested page" > "HTML" pour voir le HTML rendu par Googlebot.

✏️ Cas pratique : audit log d'un e-commerce 50 000 produits

Tu reçois 3 mois de logs Nginx (12 GB compressés). Workflow :

  1. Filtrer User-Agent Googlebot + vérification DNS reverse (Screaming Frog le fait nativement).
  2. Identifier les top 100 URL crawlées : si la #1 est /cart?utm_source=..., gaspillage massif.
  3. Bloquer les paramètres inutiles dans robots.txt : Disallow: /*?utm_*, Disallow: /*?sort=*.
  4. Vérifier que les sitemaps XML sont segmentés (un par catégorie, max 50 000 URL) et soumis individuellement.
  5. Mesure de l'impact 30 jours plus tard : ratio "URL crawlées utiles / total crawl" doit passer de 30% à > 70%.
💡 Hook growth : active le rapport "Crawl stats" dans Search Console (Settings > Crawl stats). Tu obtiens gratuitement 90% de ce que les outils payants te facturent : nombre de hits Googlebot/jour, statuts HTTP, types de fichiers.
⚠️ Piège : ne JAMAIS confondre noindex et Disallow. Disallow empêche le crawl mais l'URL peut rester indexée si elle a des backlinks (avec snippet vide). noindex exige que la page soit crawlable pour que Google lise la directive. Combine intelligemment.

Points-clés à retenir

  • Crawl budget critique au-delà de 10 000 URL — gaspille le moins possible.
  • Core Web Vitals : LCP < 2,5s, CLS < 0,1, INP < 200ms (field data uniquement).
  • Les logs serveur révèlent ce que Googlebot fait vraiment — Screaming Frog Log File Analyser.
  • SSG/ISR pour SEO, CSR jamais pour pages stratégiques.
  • noindexDisallow : maîtrise la nuance.

Pour aller plus loin

Continuez le parcours 🚀

Inscrivez-vous pour accéder aux 5 autres leçons + le quiz final.

Créer mon compte
🍪 Nous utilisons des cookies essentiels et, avec ton accord, des cookies analytiques. En savoir plus

⚙️ Préférences cookies

Choisis quels cookies tu acceptes — modifiable à tout moment.

🔐 Essentiels (obligatoires)Authentification, session, sécurité. Toujours actifs.
📊 Analytics anonymesMesure d'audience anonymisée — aucune donnée personnelle.
📣 MarketingPublicités ITAG pertinentes sur d'autres sites.
💬 Contactez-nous sur WhatsApp