Co je crawl budget a proč na něm záleží

Crawl budget je počet stránek, které Googlebot projde na vašem webu během určitého období. Skládá se ze dvou složek: crawl rate limit (jak rychle může crawler váš server zatěžovat) a crawl demand (jak moc Google *chce* vaše stránky procházet). Pokud máte malý web s desítkami stránek, crawl budget vás nemusí trápit. Ale jakmile máte e-shop s tisíci produkty – a Google indexuje jen zlomek z nich – je čas to řešit.

Googlebot procházející webové stránky s omezeným časovým rozpočtem

Crawl budget je počet stránek, které Googlebot projde na vašem webu během určitého období. Skládá se ze dvou složek: crawl rate limit (jak rychle může crawler váš server zatěžovat) a crawl demand (jak moc Google chce vaše stránky procházet). Pokud máte malý web s desítkami stránek, crawl budget vás nemusí trápit. Ale jakmile máte e-shop s tisíci produkty – a Google indexuje jen zlomek z nich – je čas to řešit.

Co je crawl rate limit a crawl demand

Crawl budget zní jako něco, co řeší jen Google inženýři. Ale pokud máte e-shop s 50 000 produkty a Google indexuje jen 8 000 z nich – řešíte to taky.

Crawl rate limit určuje, kolik požadavků za sekundu může Googlebot poslat na váš server, aniž by ho přetížil. Google tohle nastavuje automaticky. Pokud server odpovídá rychle, Googlebot přidá. Pokud server padá nebo se zpožďuje, Googlebot zpomalí. V Google Search Console si můžete crawl rate limit ručně omezit – ale zvýšit ho nemůžete.

Crawl demand je míra, jak moc Google vaše stránky zajímají. Populární stránky s častými změnami mají vysokou poptávku. Zastaralé stránky, které nikdo nenavštěvuje? Nízkou. Google taky zvýší crawl demand, když zjistí velké změny – třeba po redesignu webu nebo hromadném přidání produktů.

Výsledný crawl budget = minimum z těchto dvou hodnot. Rychlý server + nezajímavý obsah = nízký budget. Pomalý server + populární web = taky nízký budget. Potřebujete obojí.

Kdo crawl budget musí řešit

Upřímně? Většina webů to řešit nemusí.

Google to sám říká v oficiální dokumentaci: crawl budget je relevantní hlavně pro velké weby s 10 000+ URL adresami. Malý firemní web se 30 stránkami? Googlebot ho projde celý bez problémů.

Ale jsou situace, kdy crawl budget bolí i menší weby:

  • E-shopy s filtrovanými URL. Kombinace filtrů (barva × velikost × cena × značka) generuje tisíce duplicitních stránek. Viděl jsem e-shop s 3 000 produkty a 180 000 URL v indexu. Většina byly nesmyslné kombinace filtrů.
  • Weby s duplicitním obsahem. HTTP a HTTPS verze, www a non-www, parametry v URL – každá varianta žere crawl budget.
  • Weby s pomalým serverem. Odpovídá váš server za 3 sekundy místo 200 milisekund? Googlebot projde zlomek stránek.
  • Weby s velkým množstvím chyb 404 a 5xx. Každá chybová stránka je zbytečně spotřebovaný crawl.

Co ovlivňuje crawl budget

Rychlost serveru

Tohle je základ. Googlebot má na váš web vyhrazený čas – a pokud každá stránka trvá 2 sekundy místo 200 ms, projde 10× méně stránek. Investice do rychlejšího hostingu se vrátí nejen v lepším Core Web Vitals, ale i v lepší indexaci.

Duplicitní obsah

Jeden z největších žroutů crawl budgetu. Duplicity vznikají z:

  • Parametrizovaných URL (řazení, filtrování, session ID)
  • Chybějících canonical URL
  • HTTP/HTTPS a www/non-www variant
  • Stránek s identickým nebo téměř identickým obsahem

Chyby serveru a přesměrování

Řetězce 301 přesměrování (A → B → C → D) plýtvají crawl budgetem. Stejně tak stránky vracející chyby 404 nebo 5xx. Googlebot je navštíví, zjistí chybu, a pokračuje dál – ale čas spotřeboval.

Interní linking

Stránky, na které vede hodně interních odkazů, Googlebot najde a projde snáz. Osiřelé stránky (orphan pages) bez jediného interního odkazu? Googlebot se k nim nemusí dostat vůbec. Dobrá struktura interních odkazů je základ – a souvisí přímo s distribucí link juice po celém webu.

Jak optimalizovat crawl budget

1. Ukliďte robots.txt

Soubor robots.txt je váš hlavní nástroj. Zablokujte Googlebotu přístup ke stránkám, které nemá smysl procházet:

  • Administrátorské sekce
  • Výsledky interního vyhledávání
  • Filtrované URL s parametry (u e-shopů)
  • Testovací a staging prostředí

Ale pozor – blokování v robots.txt neznamená, že se stránka nezobrazí v indexu. Pokud na ni vedou externí odkazy, Google ji může zaindexovat i bez procházení. Pro úplné vyloučení potřebujete meta tag noindex.

2. Optimalizujte sitemapu

XML sitemap by měla obsahovat jen stránky, které chcete mít v indexu. Žádné 404, žádné přesměrované URL, žádné noindexované stránky. Udržujte ji aktuální – a ideálně ji rozdělte do více souborů (produkty, kategorie, články).

3. Používejte canonical URL

Canonical tag říká Googlu: „tohle je hlavní verze stránky.” Duplicity s canonicalem Google sice projde, ale ví, kterou verzi má indexovat. Šetří to čas při zpracování – i když ne přímo crawl budget.

4. Řešte chyby průběžně

Pravidelně kontrolujte GSC report „Crawl stats” a „Pokrytí indexu”. Hledejte:

  • Stránky s chybou 5xx (problémy serveru)
  • Soft 404 (stránka vrací 200, ale obsah je prázdný)
  • Řetězce přesměrování
  • Stránky blokované robots.txt, které tam být nemají

5. Zrychlete server

Googlebot měří dobu odpovědi serveru. Rychlejší server = víc procházených stránek. Zvažte:

  • Lepší hosting nebo CDN
  • Cachování na straně serveru
  • Optimalizaci databázových dotazů
  • Komprimaci odpovědí (gzip/brotli)

Jak měřit crawl budget

Google Search Console – Crawl Stats

Nejdůležitější nástroj. V GSC najdete report „Nastavení” → „Statistiky procházení”, kde vidíte:

  • Celkový počet požadavků – kolik stránek Googlebot za den projde
  • Průměrná doba odpovědi – jak rychle server reaguje
  • Stav hostitelského serveru – jestli server nezaznamenal výpadky

Zdravý web by měl mít stabilní nebo rostoucí počet crawlovaných stránek a dobu odpovědi pod 500 ms.

Serverové logy

Pro detailnější pohled analyzujte přístupové logy serveru. Uvidíte přesně, které URL Googlebot navštívil, v jakém pořadí a jak často. Nástroje jako Screaming Frog Log Analyzer nebo Oncrawl tohle vizualizují.

Příklad z praxe

Jeden e-shop klienta měl 12 000 produktů, ale v indexu Google bylo jen 4 200 stránek. Crawl stats ukazovaly, že Googlebot denně projde asi 800 URL – ale 60 % z nich byly filtrované stránky a parametrizované URL.

Co jsme udělali: zablokovali filtrové kombinace v robots.txt, nastavili canonical URL na všechny produktové varianty, opravili 340 řetězců přesměrování a přegenerovali sitemapu. Za 6 týdnů se počet zaindexovaných stránek zvýšil na 9 800 – a organická návštěvnost vzrostla o 34 %.

Nic z toho nebylo raketová věda. Jen systematické čištění technického dluhu.

Chcete zjistit, jestli váš web efektivně využívá crawl budget? Ozvěte se mi – provedeme technický SEO audit a najdeme, kde se plýtvá.

Často kladené otázky

Jak zjistím, jestli mám problém s crawl budgetem?

Podívejte se do Google Search Console na Statistiky procházení. Pokud Googlebot denně prochází výrazně méně stránek, než kolik jich na webu máte, a zároveň vidíte v reportu Pokrytí indexu kategorii „Nalezeno, ale neindexováno” – pravděpodobně máte problém. Dalším signálem je, že nové stránky se do indexu dostávají velmi pomalu (týdny až měsíce).

Pomůže zvýšení crawl rate limitu v GSC?

V GSC můžete crawl rate snížit, ne zvýšit. Google nastavuje limit automaticky podle výkonu serveru. Pokud chcete, aby Googlebot procházel víc stránek, zaměřte se na rychlost serveru a kvalitu obsahu – to zvýší crawl demand.

Ovlivňuje crawl budget pozice ve vyhledávání?

Přímo ne. Crawl budget ovlivňuje, jestli se stránka dostane do indexu – ne jakou pozici dostane. Ale pokud důležité stránky nejsou zaindexované, protože Googlebot je neprojde, samozřejmě se ve výsledcích nezobrazí. U velkých webů je crawl budget nepřímý, ale zásadní faktor SEO.

Zdroje