Co je indexace a proč bez ní váš web v Google neexistuje

Q: Jak zjistit, zda je stránka zaindexovaná

Existují dva spolehlivé způsoby, jak ověřit stav indexace: Zadejte do vyhledávání `site:vasedomena.cz/konkretni-stranka/`. Pokud se stránka zobrazí ve výsledcích, je zaindexovaná. Pokud ne, v indexu chybí. Operátor `site:` bez konkrétní stránky (např. `site:vasedomena.cz`) ukáže celkový počet zainde

Indexace je proces, při kterém Google analyzuje obsah stránky a uloží ji do svého vyhledávacího indexu – obrovské databáze obsahující stovky miliard URL. Stránka, která není v indexu, se ve výsledcích vyhledávání nezobrazí – jako by neexistovala. Indexace přichází po crawlingu, tedy po tom, co Googlebot vaši stránku navštíví a stáhne její obsah. Bez správné indexace nemá smysl řešit klíčová slova, obsah ani zpětné odkazy.

Indexace je proces, při kterém Google analyzuje obsah stránky a uloží ji do svého vyhledávacího indexu – obrovské databáze obsahující stovky miliard URL. Stránka, která není v indexu, se ve výsledcích vyhledávání nezobrazí – jako by neexistovala. Indexace přichází po crawlingu, tedy po tom, co Googlebot vaši stránku navštíví a stáhne její obsah. Bez správné indexace nemá smysl řešit klíčová slova, obsah ani zpětné odkazy.

Schéma indexace – jak Google ukládá webové stránky do svého indexu

Rozdíl mezi crawlingem a indexací

Crawling a indexace jsou dva odlišné kroky, které se často zaměňují. Crawling znamená, že Googlebot navštíví vaši stránku a stáhne si její HTML, CSS a JavaScript. Indexace je následný krok – Google obsah analyzuje, vyhodnotí jeho kvalitu a rozhodne, zda ho zařadí do indexu.

Ne každá procházená stránka se do indexu dostane. Google v roce 2020 přiznal, že indexuje jen zlomek stránek, které projde. Důvody mohou být technické (chyby serveru, blokace v robots.txt) i obsahové (duplicitní nebo nekvalitní obsah).

Představte si to jako knihovnu. Crawling je moment, kdy knihovník vezme knihu do ruky a prolistuje ji. Indexace je rozhodnutí, zda ji zařadí do katalogu a umístí na poličku, kde ji čtenáři najdou.

Jak Googlebot a indexace fungují v praxi

Googlebot – hlavní crawler Googlu – pracuje ve dvou fázích. V první fázi stáhne HTML stránky. Ve druhé fázi (tzv. rendering) spustí JavaScript a vykreslí stránku tak, jak ji vidí uživatel. Teprve po renderingu Google plně vyhodnotí obsah.

Index Googlu obsahuje podle odhadů více než 400 miliard webových stránek. Caffeine – systém, který Google používá od roku 2010 – dokáže zpracovat stovky tisíc stránek za sekundu. Přesto má každý web omezený crawl budget – počet stránek, které Googlebot projde za určité období.

U malých webů (do stovek stránek) crawl budget většinou není problém. U velkých e-shopů s desítkami tisíc produktových stránek se ale snadno stane, že Google část stránek neprojde a nezaindexuje vůbec.

Jak zjistit, zda je stránka zaindexovaná

Existují dva spolehlivé způsoby, jak ověřit stav indexace:

Operátor site: v Google

Zadejte do vyhledávání site:vasedomena.cz/konkretni-stranka/. Pokud se stránka zobrazí ve výsledcích, je zaindexovaná. Pokud ne, v indexu chybí. Operátor site: bez konkrétní stránky (např. site:vasedomena.cz) ukáže celkový počet zaindexovaných stránek.

Kontrola URL v Google Search Console

Přesnější informace najdete v Google Search Console v nástroji Kontrola URL adresy (URL Inspection). Zadáte URL a okamžitě vidíte:

Zda je stránka v indexu.
Kdy ji Googlebot naposledy procházel.
Zda nemá problémy s indexací (noindex, canonical na jinou URL apod.).
Jak Google stránku vykreslil (screenshot renderované verze).

V sekci Stránky (Pages) v GSC pak vidíte přehled všech URL – kolik jich je zaindexovaných a kolik vyloučených, včetně konkrétních důvodů.

Proč Google vaši stránku neindexuje

Když se stránka nezobrazuje ve vyhledávání, příčin může být několik. Z mé 22leté praxe v digitálním marketingu vím, že nejčastěji narážím na těchto 6 problémů:

1. Meta tag noindex

Tag <meta name="robots" content="noindex"> v hlavičce stránky říká Googlu, aby stránku do indexu nezařazoval. Často se stává, že noindex zůstane na webu omylem po migraci z testovacího prostředí.

2. Blokace v robots.txt

Soubor robots.txt může Googlebotu zakázat přístup k celým sekcím webu. Pokud Googlebot stránku nemůže navštívit, nemůže ji ani zaindexovat. Pozor – robots.txt blokace a noindex tag jsou dvě různé věci. Pokud stránku zablokujete v robots.txt, ale nepoužijete noindex, Google ji paradoxně může zaindexovat na základě externích odkazů.

3. Problémy s canonical URL

Canonical tag říká Googlu, která verze stránky je hlavní. Pokud canonical odkazuje na jinou URL, Google zaindexuje tu druhou a vaši stránku přeskočí. Chybný canonical je jedním z nejčastějších technických problémů, které na auditech nacházím.

4. Nízká kvalita obsahu

Google neindexuje stránky, které nepřinášejí unikátní hodnotu. Tenký obsah (thin content), duplicitní texty nebo stránky generované bez přidané hodnoty Google jednoduše ignoruje. Od spuštění Helpful Content Update v roce 2022 je Google v tomto ještě přísnější.

5. Nedostatek crawl budgetu

U velkých webů s tisíci stránek Googlebot nemusí stihnout projít všechny URL. Řešením je optimalizace crawl budgetu – odstranění zbytečných stránek, správná sitemap a čistá interní struktura.

6. Technické chyby serveru

Chyby 5xx, pomalé odpovědi serveru (nad 2–3 sekundy) nebo přesměrovací smyčky Googlebota odradí. Stabilní a rychlý hosting je základní podmínkou indexace.

Index bloat – když je v indexu příliš mnoho stránek

Opačný problém nastává, když Google zaindexuje stránky, které v indexu být nemají. Tomu se říká index bloat (nafouknutý index). Typické příklady:

Stránky s parametry (filtry, řazení, stránkování).
Interní vyhledávání webu.
Archivní a tag stránky bez unikátního obsahu.
Testovací nebo staging verze webu.

Index bloat zhoršuje SEO dvěma způsoby. Za prvé plýtvá crawl budgetem na zbytečné stránky. Za druhé oslabuje autoritu webu tím, že ji rozprostírá přes stovky nekvalitních URL.

Řešení je kombinace noindex tagů, správného nastavení canonical URL a blokace v robots.txt. U e-shopů s parametrizovanými URL často pomůže i nastavení parametrů v Google Search Console.

Jak požádat o indexaci nebo zrychlit indexování

Ruční požadavek přes GSC

V Google Search Console použijte nástroj Kontrola URL adresy. Po zadání URL klikněte na Požádat o indexaci (Request Indexing). Google vaši stránku zařadí do fronty na procházení. Obvykle to trvá hodiny až dny – žádnou garanci rychlosti ale nemáte.

Google Indexing API

Pro weby s častými změnami (zpravodajství, nabídky práce, e-shopy) nabízí Google Indexing API. Umožňuje programově odesílat URL k indexaci. API má denní limit 200 požadavků a oficiálně je určené pouze pro stránky s JobPosting nebo BroadcastEvent schema. V praxi ale funguje i pro ostatní typy stránek.

XML sitemap

Správně nastavená sitemap.xml je nejjednodušší způsob, jak Googlu říct, které stránky chcete mít zaindexované. Odesláním sitemapy přes GSC urychlíte objevení nových stránek.

Jak odstranit stránku z indexu

Někdy potřebujete stránku z indexu naopak odebrat. Máte tři možnosti:

Meta tag noindex – přidejte <meta name="robots" content="noindex"> a počkejte, než Google stránku znovu projde.
Nástroj pro odstranění v GSC – v sekci Odstranění (Removals) můžete požádat o dočasné skrytí URL na 6 měsíců.
HTTP stavový kód 410 (Gone) – server vrátí kód 410, který Googlu říká, že stránka byla trvale odstraněna.

Nejrychlejší je kombinace: nastavte noindex a současně podejte žádost o odstranění přes GSC. Stránka zmizí z výsledků (SERPu) obvykle do 24–48 hodin.

Často kladené otázky

Jak dlouho trvá indexace nové stránky?

Od několika hodin po několik týdnů. Záleží na autoritě domény, frekvenci crawlingu a kvalitě obsahu. Nový web bez zpětných odkazů může čekat i měsíce. Zavedený web s vysokou autoritou má nové stránky v indexu často do 24 hodin. Indexaci urychlíte odesláním URL přes Google Search Console.

Může být stránka procházená, ale ne zaindexovaná?

Ano, a je to běžné. Google Search Console tento stav zobrazuje jako „Prozkoumáno – aktuálně neindexováno“ (Crawled – currently not indexed). Znamená to, že Googlebot stránku navštívil, ale rozhodl se ji do indexu nezařadit – obvykle kvůli nízké kvalitě obsahu nebo duplicitě.

Ovlivňuje rychlost webu indexaci?

Ano. Pomalý web (doba odpovědi serveru nad 2 sekundy) snižuje crawl budget – Googlebot projde méně stránek za návštěvu. Google navíc od roku 2021 zohledňuje Core Web Vitals jako faktor rankingu. Rychlý hosting a optimalizovaný kód tedy pomáhají jak indexaci, tak pozicím ve výsledcích.

Je Google Search Console jediný nástroj pro sledování indexace?

Ne. Kromě GSC můžete použít nástroje jako Screaming Frog (crawluje web a porovnává s indexem), Ahrefs (reporty o indexovaných stránkách), nebo Sitebulb. GSC je ale jediný nástroj, který ukazuje přímá data od Googlu – proto by měl být vždy vaším primárním zdrojem informací.

Potřebujete pomoct s indexací?

Pokud váš web nemá zaindexované důležité stránky nebo se potýkáte s problémy ve výsledcích vyhledávání, ozvěte se mi. Provedu technický SEO audit a zjistím, co Googlu brání vaše stránky správně zaindexovat. Více o základech SEO najdete v mém průvodci.

Zdroje

Google Search Central – How Google Search Works – Oficiální dokumentace o crawlingu, indexaci a zobrazování výsledků
Google Search Central – Remove a page from Google – Návod na odstranění stránek z indexu
Google Indexing API Documentation – Dokumentace k Indexing API pro programové odesílání URL
Ahrefs – Google Index: How to Get Your Website Indexed – Praktický průvodce indexací od Ahrefs