Crawl budget, Core Web Vitals, log analysis, JavaScript SEO : le socle technique des sites qui rankent.
robots.txt, sitemap XML segmenté et canonicals sans créer de cannibalisation.Le crawl budget est le nombre d'URL que Googlebot accepte de visiter sur ton domaine sur une période donnée. Google le détermine selon deux critères : la crawl capacity (combien ton serveur supporte sans ralentir) et la crawl demand (à quel point tes URL sont jugées dignes d'être recrawlées).
Pour un site < 10 000 URL, le crawl budget n'est généralement pas un problème. Au-delà — e-commerce avec filtres à facettes, marketplaces, médias avec archives profondes — il devient critique. Si Googlebot dépense 70% de son budget sur des URL inutiles (paramètres UTM, tris, pagination infinie), tes nouvelles pages stratégiques mettront des semaines à être indexées.
"For most sites, crawl budget isn't something to worry about. However, if you have a very large site (more than 1 million pages), or a medium-sized site (more than 10,000 pages) with content that changes frequently, you might want to read this guide." — Google Search Central — Managing crawl budget
Depuis mars 2024, Google a remplacé FID par INP (Interaction to Next Paint). Les trois Core Web Vitals officiels sont désormais :
| Métrique | Que mesure-t-elle | Seuil "Good" | Outil principal |
|---|---|---|---|
| LCP (Largest Contentful Paint) | Temps d'apparition du plus gros élément visible | < 2,5 s | PageSpeed Insights, CrUX |
| CLS (Cumulative Layout Shift) | Stabilité visuelle (zéro saut) | < 0,1 | Web Vitals extension |
| INP (Interaction to Next Paint) | Réactivité globale aux clics/taps | < 200 ms | Lighthouse, CrUX |
| TTFB (bonus) | Temps de réponse serveur | < 600 ms | WebPageTest |
Attention : les outils lab (Lighthouse, PageSpeed) simulent un environnement contrôlé. Les outils field (CrUX, Search Console > Core Web Vitals) mesurent les vraies données utilisateurs sur les 28 derniers jours. Seules les données field comptent pour le ranking.
Optimisations LCP courantes : preload de l'image hero, fetchpriority="high", CDN edge, format AVIF/WebP, suppression des bloquants render (JS/CSS). Pour CLS : réserver les dimensions width/height des images et iframes, éviter les bannières insérées dynamiquement.
La Search Console te montre ce que Google indexe. Les logs serveur te montrent ce que Googlebot crawle réellement. La différence est énorme. Avec Screaming Frog Log File Analyser (199 GBP/an) ou un script Python sur tes logs Apache/Nginx, tu peux répondre à :
Vérifie l'authenticité de Googlebot via DNS reverse : host 66.249.66.1 doit retourner *.googlebot.com. 12% du "trafic Googlebot" déclaré dans les logs est en réalité du fake bot scrapant ton contenu.
Googlebot exécute le JavaScript via un Chromium headless récent (mis à jour 2024). Mais cette indexation se fait en deux vagues : d'abord le HTML brut (instantané), puis le rendu JS (jusqu'à plusieurs jours plus tard). Pour des sites e-commerce ou médias temps-réel, ce délai est inacceptable.
Architecture recommandée Next.js / React en 2026 :
Tests : view-source: dans Chrome pour voir le HTML brut, puis URL Inspection Tool de la Search Console > "Tested page" > "HTML" pour voir le HTML rendu par Googlebot.
Tu reçois 3 mois de logs Nginx (12 GB compressés). Workflow :
Googlebot + vérification DNS reverse (Screaming Frog le fait nativement)./cart?utm_source=..., gaspillage massif.robots.txt : Disallow: /*?utm_*, Disallow: /*?sort=*.noindex et Disallow. Disallow empêche le crawl mais l'URL peut rester indexée si elle a des backlinks (avec snippet vide). noindex exige que la page soit crawlable pour que Google lise la directive. Combine intelligemment.noindex ≠ Disallow : maîtrise la nuance.Inscrivez-vous pour accéder aux 5 autres leçons + le quiz final.
Créer mon compteChoisis quels cookies tu acceptes — modifiable à tout moment.