🔧 SEO Techniczne

Indeksowanie, canonical i noindex — techniczne pułapki, które po cichu zabijają widoczność Twoich treści

Indeksowanie, canonical, noindex — pułapki techniczne SEO

Indeksowanie to proces, w którym Google odkrywa Twoją stronę (crawlowanie), analizuje jej treść i dodaje ją do swojej bazy danych (indeksu), z której wyświetla wyniki wyszukiwania — a znaczniki canonical i noindex to instrukcje HTML, które mówią Google: „ta strona jest duplikatem, traktuj jako główną tamtą” (canonical) lub „nie dodawaj tej strony do indeksu w ogóle” (noindex). Jako twórca treści nie musisz znać szczegółów implementacji — ale musisz wiedzieć, że te mechanizmy istnieją, bo one decydują o tym, czy Twój artykuł, na który poświęciłeś 4 godziny, w ogóle pojawi się w Google.

To nie jest teoretyczny problem. Przynajmniej raz na kwartał widzę sytuację, w której ktoś pisze doskonałe treści, optymalizuje je pod frazy, buduje linki wewnętrzne — i zastanawia się, dlaczego artykuł nie rankuje. Odpowiedź: strona ma noindex z wtyczki SEO, która została włączona „na chwilę” i nigdy wyłączona. Albo canonical wskazuje na inny URL. Albo robots.txt blokuje crawlowanie katalogu /blog/. Godziny pracy zmarnowane przez jeden parametr techniczny.

Jak Google odkrywa i indeksuje Twoje treści — uproszczony model

Cały proces w trzech krokach:

Krok 1: Crawlowanie. Robot Google (Googlebot) podąża za linkami — wewnętrznymi, zewnętrznymi, z mapy witryny — i odkrywa URL-e. Jeśli Twoja strona nie ma żadnych linków wewnętrznych i nie jest w sitemap — Googlebot może jej nie znaleźć przez tygodnie.

Krok 2: Renderowanie. Googlebot pobiera HTML strony, wykonuje JavaScript i „widzi” stronę tak, jak przeglądarka. Na tym etapie czyta znacznik canonical, dyrektywy noindex i treść strony.

Krok 3: Indeksowanie. Jeśli strona nie ma noindex, nie jest zablokowana w robots.txt, nie jest duplikatem z innym canonical — Google dodaje ją do indeksu. Od tego momentu strona może pojawiać się w wynikach wyszukiwania.

Ważne: crawlowanie ≠ indeksowanie. Google może crawlować stronę (pobrać HTML) i nie zaindeksować jej — bo uzna ją za niskiej jakości, duplikat, lub zobaczy dyrektywę noindex. W Google Search Console (raport „Strony”) widzisz dokładnie, ile stron jest zaindeksowanych, a ile nie — i dlaczego.

Canonical — kiedy pomaga, a kiedy szkodzi

Czym jest canonical tag

Znacznik <link rel="canonical" href="https://twojastrona.pl/artykul"> w sekcji <head> strony mówi Google: „Jeśli istnieje kilka wersji tej strony (z parametrami URL, z /amp/, z ?utm_source=…), traktuj wskazany URL jako główny.”

Kiedy canonical jest Twoim przyjacielem

Parametry URL. Twoja strona produktowa istnieje pod URL /produkt/silnik-2kw i jednocześnie pod /produkt/silnik-2kw?ref=facebook. Bez canonical Google może zaindeksować obie wersje i potraktować je jako duplikaty. Z canonical obie wskazują na /produkt/silnik-2kw — problem rozwiązany.

Wersje mobilne i AMP. Jeśli masz osobną wersję mobilną (m.twojastrona.pl) lub AMP — canonical zapewnia, że Google wie, która wersja jest główna.

Syndykacja treści. Publikujesz artykuł na swoim blogu i wersję na Medium. Canonical na wersji Medium wskazujący na Twój blog mówi Google: „oryginał jest tam, nie tu.”

Kiedy canonical staje się pułapką

Canonical wskazujący na złą stronę. Widziałem to wielokrotnie: ktoś kopiuje szablon strony, zmienia treść, ale zapomina zmienić canonical — i nowy artykuł ma canonical wskazujący na stary artykuł. Google ignoruje nowy artykuł, bo uważa, że to duplikat starego.

Wtyczka SEO ustawia canonical automatycznie i błędnie. Niektóre konfiguracje Yoast lub Rank Math generują niepoprawne canonicale — np. canonical z trailingiem slash na stronie bez niego (lub odwrotnie). To subtelny problem, który blokuje indeksowanie, a jest niewidoczny bez narzędzia do crawlowania.

Self-referencing canonical z błędem. Strona pod URL https://twojastrona.pl/artykul ma canonical wskazujący na http://twojastrona.pl/artykul (bez HTTPS). Google traktuje je jako dwie różne strony. Canonical musi wskazywać na dokładnie ten sam URL — z tym samym protokołem, z lub bez www, z lub bez trailing slash.

Jak sprawdzić canonical swoich stron

Najszybsza metoda: otwórz stronę w przeglądarce → kliknij prawym → „Wyświetl źródło strony” → wyszukaj canonical. Powinieneś zobaczyć dokładnie ten URL, pod którym strona jest dostępna. Jeśli widzisz inny URL — masz problem.

Metoda na skalę: Screaming Frog crawluje całą witrynę i generuje raport canonicali — w tym niezgodności, łańcuchy canonical i canonicale wskazujące na strony 404.

Noindex — kiedy celowy, kiedy katastrofalny

Czym jest noindex

Znacznik <meta name="robots" content="noindex"> lub nagłówek HTTP X-Robots-Tag: noindex mówi Google: „Nie dodawaj tej strony do indeksu.” Strona nadal jest crawlowana, ale nie pojawi się w wynikach wyszukiwania. Nigdy.

Kiedy noindex jest prawidłowy

Strony, które nie powinny być w Google: strona logowania, strona podziękowania po zakupie, wewnętrzne wyniki wyszukiwania, strony z tagami/archiwami o niskiej wartości, strony w budowie (ale lepiej ich w ogóle nie publikować).

Kiedy noindex jest katastrofą

Noindex na stronie produkcyjnej po migracji ze staging. Klasyk: strona była na serwerze testowym z noindex (żeby Google nie indeksował wersji developerskiej). Przy migracji na produkcję nikt nie usunął noindex. Strona jest online, wygląda dobrze, ale Google ją ignoruje.

Noindex ustawiony „na chwilę” i zapomniany. „Ustawię noindex na ten artykuł, bo chcę go jeszcze doszlifować, a potem zmienię.” Trzy miesiące później artykuł nadal ma noindex. Autor nie rozumie, dlaczego nie rankuje.

Wtyczka SEO ustawiająca noindex dla kategorii/tagów. Yoast i Rank Math mają opcję „Noindex dla archiwów tagów.” Jeśli ktoś włączy to globalnie, nie rozumiejąc konsekwencji, traci widoczność na stronach, które mogłyby generować ruch.

Noindex w szablonie strony. Deweloper dodaje noindex do szablonu bloga na staging, zapomina usunąć — i każdy nowy artykuł automatycznie dostaje noindex. Wynik: 50 artykułów, zero widoczności.

Jak wykryć niechciany noindex

W Google Search Console: raport „Strony” → „Nie zaindeksowano” → poszukaj kategorii „Wykluczone przez tag ‚noindex’” — jeśli widzisz tam strony, które powinny być zaindeksowane, masz problem.

Screaming Frog: crawl → filtr „Meta Robots = noindex” → lista wszystkich stron z noindex. Porównaj z listą stron, które chcesz mieć w indeksie.

Ręcznie: otwórz źródło strony, wyszukaj „noindex” — jeśli jest w <head>, strona nie będzie indeksowana.

Robots.txt — blokada, o której zapominasz

Plik robots.txt (dostępny pod twojastrona.pl/robots.txt) mówi robotom wyszukiwarek, które katalogi mogą crawlować, a których nie. Jeśli robots.txt blokuje /blog/ — żaden artykuł z bloga nie zostanie zaindeksowany, nawet jeśli nie ma noindex.

To jest bardziej problem infrastrukturalny niż edytorski — ale sprawdź robots.txt swojej strony raz w życiu. Jeśli widzisz Disallow: /blog/ lub Disallow: / — natychmiast skontaktuj się z osobą zarządzającą stroną.

Sitemap XML — powiedz Google, co indeksować

Sitemap (mapa witryny XML) to plik dostępny zwykle pod twojastrona.pl/sitemap.xml, który listuje wszystkie URL-e, które chcesz, żeby Google zaindeksował. To nie gwarancja indeksowania — ale przyspieszenie: Google odkrywa nowe strony szybciej z sitemap niż z samych linków wewnętrznych.

Co twórca treści musi wiedzieć o sitemap:

Nowe artykuły powinny pojawić się w sitemap automatycznie. Jeśli Twój CMS to WordPress z Yoast — dzieje się automatycznie. Jeśli Twój CMS to Astro, Hugo czy Next.js — upewnij się, że sitemap się regeneruje przy każdej publikacji (w Astro: integracja @astrojs/sitemap).

Strony z noindex NIE powinny być w sitemap. To sprzeczne sygnały: sitemap mówi „zaindeksuj”, noindex mówi „nie indeksuj”. Google radzi sobie z tą sprzecznością, ale to niepotrzebny szum.

Sitemap powinien być zgłoszony w Google Search Console. Sprawdź: GSC → Mapy witryn → czy Twój sitemap jest zgłoszony i nie ma błędów.

Diagnozowanie problemów z indeksowaniem — 5-minutowy audit

Nie musisz robić pełnego audytu technicznego co tydzień. Ale raz na miesiąc poświęć 5 minut na tę weryfikację:

Krok 1: W Google Search Console → „Strony” → sprawdź liczbę stron „Zaindeksowanych” vs „Nie zaindeksowanych”. Jeśli stosunek się pogarsza — coś jest nie tak.

Krok 2: W kategorii „Nie zaindeksowano” sprawdź najczęstsze przyczyny. „Odkryto — obecnie nie zaindeksowano” = Google znalazł stronę, ale zdecydował nie indeksować (prawdopodobnie niska jakość lub duplikat). „Zaindeksowano, chociaż zablokowano plikiem robots.txt” = sprzeczne sygnały.

Krok 3: Dla każdego nowego artykułu: użyj „Inspekcji URL” w GSC i sprawdź status. Jeśli artykuł opublikowany 2 tygodnie temu nie jest zaindeksowany — zbadaj dlaczego (noindex? brak linków wewnętrznych? niska jakość?).

Krok 4: Wpisz w Google: site:twojastrona.pl — liczba wyników to orientacyjna liczba zaindeksowanych stron. Porównaj z liczbą stron, które powinieneś mieć w indeksie. Duża rozbieżność = problem.

Krok 5: Sprawdź robots.txt (twojastrona.pl/robots.txt) — czy nie blokuje katalogów, które powinny być crawlowane.

Jak przyspieszyć indeksowanie nowego artykułu

Opublikowałeś artykuł i chcesz, żeby Google go zaindeksował szybciej niż „kiedyś w ciągu 2 tygodni”. Trzy działania:

1. Zgłoś URL w GSC. Google Search Console → Inspekcja URL → wklej URL → „Poproś o indeksowanie”. Google nie gwarantuje szybkiego indeksowania, ale w praktyce zgłoszone URL-e są indeksowane w ciągu 1–3 dni (zamiast 1–2 tygodni).

2. Dodaj linki wewnętrzne z istniejących stron. Googlebot podąża za linkami. Jeśli Twój nowy artykuł jest zlinkowany z 3–5 stron, które Google regularnie crawluje — odkryje go szybciej. To jest techniczny powód, dla którego linkowanie wewnętrzne po publikacji jest tak ważne.

3. Upewnij się, że artykuł jest w sitemap. Jeśli sitemap regeneruje się automatycznie — sprawdź, czy nowy URL tam jest. Jeśli nie — wymuś regenerację.

Czego NIE robić: nie „ping” Google wielokrotnie na ten sam URL (to nie przyspiesza procesu), nie wysyłaj formularza indeksowania co godzinę, nie twórz sztucznych linków zewnętrznych „dla szybkości.” Cierpliwość + trzy powyższe kroki = indeksowanie w 1–3 dni.

Komunikacja z programistą — jak rozmawiać o technical SEO

Jako twórca treści nie musisz wdrażać canonical, noindex czy sitemap. Ale musisz umieć powiedzieć programiście, czego potrzebujesz. Kilka zdań, które działają:

„Sprawdziłem w GSC — 30% naszych artykułów ma status ‚Odkryto — obecnie nie zaindeksowano’. Czy możesz sprawdzić, dlaczego?”

„Widzę, że strona /blog/nowy-artykul ma canonical wskazujący na /blog/stary-artykul. Czy to celowe? Bo Google ignoruje nowy artykuł.”

„Nasz robots.txt blokuje /assets/ — ale tam są też obrazy używane w artykułach. Googlebot nie widzi naszych grafik.”

„Po migracji z staging na produkcję — czy usunęliśmy noindex ze wszystkich stron? Mogę sprawdzić w GSC za tydzień, ale wolę się upewnić teraz.”

Nie musisz znać kodu. Musisz znać problem i umieć go opisać. Programista zrobi resztę.

FAQ

Czy Google indeksuje każdą opublikowaną stronę?

Nie. Google decyduje na podstawie jakości treści, autorytetu witryny i budżetu crawlowania (ile stron Twojej witryny chce odwiedzać). Strony o niskiej jakości, cienkie treści i duplikaty mogą nie zostać zaindeksowane, nawet jeśli technicznie wszystko jest poprawne. W GSC widać to jako „Odkryto — obecnie nie zaindeksowano” — Google znalazł stronę, ale zdecydował nie dodawać jej do indeksu.

Jak długo trwa indeksowanie nowego artykułu?

Typowo: 2–14 dni bez interwencji. Z zgłoszeniem w GSC + linkami wewnętrznymi: 1–3 dni. Strony o wysokim autorytecie domeny: kilka godzin. Nowe witryny z niskim autorytetem: do kilku tygodni. Jeśli artykuł nie jest zaindeksowany po 4 tygodniach — zbadaj przyczyny techniczne.

Czy usunięcie noindex natychmiast przywraca stronę do indeksu?

Nie natychmiast — Google musi ponownie crawlować stronę i zobaczyć, że noindex zniknął. Zgłoś URL w GSC po usunięciu noindex, żeby przyspieszyć proces. Typowy czas: 1–7 dni od usunięcia noindex do ponownego zaindeksowania.

Czy canonical to to samo co przekierowanie 301?

Nie. Canonical to „sugestia” dla Google: „Traktuj tamten URL jako główny.” Google może to zignorować. Przekierowanie 301 to „instrukcja”: „Ta strona się przeniosła, zawsze kieruj na nowy URL.” 301 jest silniejsze i trudniejsze do zignorowania. Używaj canonical dla duplikatów, które istnieją równolegle; 301 dla stron, które zostały trwale przeniesione.

Czy powinienem dodawać noindex do stron z tagami na blogu?

Zależy od wartości tych stron. Jeśli strony tagów zawierają wyłącznie listę artykułów bez unikalnej treści — noindex jest rozsądny (oszczędza budżet crawlowania). Jeśli strony tagów mają unikalne opisy i pokrywają konkretne frazy — mogą być wartościowe i warto je indeksować. Nie ma uniwersalnej odpowiedzi; oceniaj indywidualnie.

# indeksowanie google# canonical tag# noindex# crawlowanie# seo techniczne# problemy z indeksowaniem

Powiązane artykuły