
Robots.txt je textový soubor v kořenovém adresáři webu, který říká vyhledávacím robotům, které části webu mohou procházet a které ne. Je to první soubor, který Googlebot navštíví. Správné nastavení pomáhá řídit crawling a chránit stránky, které nemají být ve vyhledávání.
Jak robots.txt funguje
Robots.txt funguje na principu pravidel. Každé pravidlo říká konkrétnímu crawleru, co smí a co nesmí.
Základní struktura vypadá takto:
User-agent: *
Disallow: /admin/
Disallow: /dekuji/
Allow: /
Sitemap: https://vasedomena.cz/sitemap.xml
- User-agent – pro jakého robota pravidlo platí. Hvězdička (
*) znamená pro všechny. - Disallow – cesta, kterou robot nesmí procházet.
- Allow – výjimka z Disallow pravidla.
- Sitemap – odkaz na sitemapu vašeho webu.
Soubor musí být na URL vasedomena.cz/robots.txt. Jinde ho vyhledávače nehledají.
Proč je robots.txt důležitý pro SEO
Robots.txt vám dává kontrolu nad tím, co Google prochází. A to je důležité ze dvou důvodů:
Šetříte crawl budget. Google má omezený čas na procházení vašeho webu. Pokud mu zakážete procházet nepodstatné stránky (admin rozhraní, interní vyhledávání, duplicitní filtrované stránky), věnuje víc času těm důležitým.
Chráníte citlivé stránky. Některé stránky nemají ve vyhledávání co dělat – administrace, testovací stránky, děkovací stránky po odeslání formuláře.
Ale pozor – robots.txt nezabrání indexaci. Pokud na zablokovanou stránku odkazují jiné weby, Google ji může zaindexovat i bez procházení. Pro skutečné vyřazení z indexu potřebujete meta tag noindex.
Jak správně nastavit robots.txt
- Neblokujte CSS a JavaScript – Google potřebuje tyto soubory pro správné vykreslení stránky. Zablokujete-li je, Google stránku nemusí správně pochopit.
- Neblokujte důležité stránky – vidím to překvapivě často. Špatně nastavený robots.txt blokuje stránky, které by měly být ve vyhledávání.
- Přidejte odkaz na sitemapu – jednoduché, ale často opomíjené.
- Testujte v Google Search Console – nástroj “Kontrola robots.txt” ukáže, jestli jsou pravidla správná.
- Buďte konzervativní – pokud si nejste jistí, raději neblokujte. Špatné nastavení může vyřadit celý web z vyhledávání.
Časté chyby v robots.txt
Nejhorší chyba? Disallow: / – tohle zakáže Googlu procházet celý web. Vidím to u webů po redesignu, kdy někdo zapomněl odebrat blokaci nastavenou během vývoje.
Další časté chyby:
- Blokování CSS a JS souborů.
- Blokování obrázků, které by mohly přivést návštěvníky přes vyhledávání obrázků.
- Chybějící odkaz na sitemapu.
- Duplicitní nebo protichůdná pravidla.
Potřebujete zkontrolovat nastavení robots.txt? Je to součást každého SEO auditu, který provádím. Ozvěte se mi.
Často kladené otázky
Zabrání robots.txt indexaci stránky?
Ne. Robots.txt zabrání crawlingu, ne indexaci. Pokud na zablokovanou stránku odkazují jiné weby, Google ji může zaindexovat i bez procházení obsahu – zobrazí se jen URL a případně anchor text odkazu. Pro skutečné vyřazení z indexu použijte meta tag noindex.
Co se stane, když robots.txt chybí?
Nic dramatického. Vyhledávače budou procházet celý web bez omezení. Pro malé weby to není problém. Ale u větších webů přicházíte o možnost řídit crawl budget a chránit nepodstatné stránky.
Jak otestuji, jestli je můj robots.txt správně?
Použijte Google Search Console – sekce “Nastavení” obsahuje nástroj pro testování robots.txt. Zadejte URL a uvidíte, jestli je povolená nebo zablokovaná. Můžete tam také ověřit, že Google váš robots.txt soubor vůbec našel a správně načetl.
Zdroje
- Google Search Central — Robots.txt – Oficiální dokumentace Googlu k robots.txt
- Robotstxt.org — Specification – Původní specifikace robots.txt protokolu
- Moz — Robots.txt – Srozumitelný průvodce nastavením robots.txt