Czego się dowiesz z tego artykułu?

  • Jak działa indeksowanie stron internetowych?
  • Jakie są przyczyny braku indeksowania przez Google?
  • Co zrobić, żeby Google sprawniej indeksowało stronę?

Jak działa indeksowanie stron internetowych?

Na początek, w celu lepszego zrozumienia dalszej części artykułu, chciałbym przypomnieć, jak działa indeksowanie w Google. Nowa podstrona danego serwisu, czy całkiem nowa strona, mogą się pojawić w Google dopiero po dodaniu danego adresu URL do indeksu Google. 

Ten indeks, to nic innego jak spis wszystkich adresów URL, które zawierają treści odpowiadające na zapytania wpisywane przez użytkowników. Google po prostu zapisuje sobie treści, które mogą się przydać.

Google posiada ogromną ilość robotów (tzw. spiderów), które skanują strony internetowe w poszukiwaniu nowych lub aktualizacji treści. Można by powiedzieć, że Google “uczy” się całego internetu i zapamiętuje, który adres URL (podstrona) będzie najbardziej odpowiednia na daną frazę kluczową.

Roboty te, poniekąd zachowują się jak zwykli użytkownicy i “klikają” po stronach przechodząc od treści do treści. Część z nich renderuje już strony w pełni przy pomocy przeglądarki Chrome.

Katalog, czy raczej indeks Google jest ogromny i to dzięki niemu Google, wie jakie strony mogą być odpowiedzią na dane zapytanie. Jeśli Twoja strona jest najlepsza na świecie i jest zbudowana zgodnie z zasadami Google, to nawet jeśli zasługuje na pierwszą pozycję — nie będzie widoczna, ponieważ Google jej jeszcze nie zna. Dopiero po dodaniu jej do indeksu, możesz brać udział w walce o pozycje. 

Jak często Google indeksuje strony?

Problem całej sytuacji z indeksowaniem polega na tym, że stron internetowych jest ogromna ich ilość. Google ma ograniczone zasoby mocy obliczeniowej. Mówiąc wprost — wyszukiwarka nie wyrabia się z “zapamiętywaniem” treści stron internetowych. 

Optymalizując koszty, Google ocenia wstępnie adresy, które może indeksować i priorytetyzuje poszczególne zasoby czy strony. Niektóre domeny będą więc częściej odwiedzane i indeksowane, a inne będą czekały miesiącami, aż robot je odwiedzi i sprawdzi zawartość.

Częstość indeksowania zależy głównie od ogólnej oceny strony przez Google. Im bardziej wyszukiwarka ufa Twojej domenie, tym częściej będzie odwiedzać Twoją stronę, zwłaszcza jeśli regularnie publikujesz treści — wtedy Google dość często zagląda na Twoją stronę, bo spodziewa się nowych treści. 

Dlaczego Google ma ostatnio problemy z indeksowaniem?

Google od dłuższego czasu boryka się z różnymi problemami związanymi z indeksowaniem. Niestety problem ten, coraz częściej dotyka stron, które wcześniej były indeksowane bardzo szybko i sprawnie. Oficjalnie, nie ma żadnych informacji o przyczynach tego stanu. Jednak możemy się domyślać, że chodzi o kolejne ograniczenia zasobów w celach oszczędzania mocy obliczeniowej — proces indeksowania pobiera ogromne ilości prądu. 

Zdaję sobie sprawę, że taka odpowiedź jest bardzo ogólna. Na szczęście z punktu widzenia właściciela strony można zauważyć kilka głównych przyczyn związanych z indeksowaniem, które będziesz w stanie rozwiązać na własną rękę. Postaram się je teraz omówić.

Zobacz też: Jak dodać stronę do Google.

Strony celowo blokują indeksowanie

Jednym z najprostszych do rozwiązania, a jednocześnie dość powszechnym problemem z indeksowaniem jest blokowanie robotów przez samą stronę. Flagowym przykładem może być tutaj wdrożenie nowej strony, podczas której deweloper ustawia parametr robots na wartość noindex

<meta name=”robots” content=”noindex”>

Możliwy jest też scenariusz, że ktoś przez przypadek ustawił taki parametr nie globalnie, ale dla pojedynczej podstrony lub grupy podstron. W takiej sytuacji Google także nie zaindeksuje tych podstron. 

Blokowanie przed indeksowaniem może być też spowodowane niepoprawną konfiguracją linków canonicznych, czyli tzw. parametru canonical. Jeśli wskazuje on na inną stronę, to Google zaindeksuje tą drugą. 

Kolejnym problemem z blokowaniem strony przed indeksowaniem może być plik robots.txt. Jeśli używasz w nim dyrektyw blokujących Google, to roboty nie są w stanie odwiedzić blokowanych podstron. Efektem tego jest brak możliwości indeksowania.

Wykonanie przekierowania stałego typu 301, także będzie powodem braku indeksowania, wydaje się to oczywiste, ale warto wspomnieć, że Google spróbuje zeskanować i dodać do indeksu docelowy adres URL przekierowania.

Na tym etapie warto też wspomnieć o błędzie technicznym związanym ze statusem HTTP, jaki zwraca dany adres URL. Jeśli będzie to status oznaczający błąd (40X, 50X), to Google raczej nie podejmie próby indeksowania i poczeka, aż ten status zmieni się na poprawny kod (200).

Jak widzisz z powyższych przykładów, właściciel strony przyczynić się do problemów z indeksowaniem, jednak te problemy zazwyczaj bardzo łatwo zdiagnozować i wyeliminować. Najczęściej, tego typu błędy są wynikiem przeoczenia lub braku wiedzy. Kilka chwil spędzonych w Google Search Console powinno rozwiązać większość z nich. 

Twoja strona jest nowa w Google

Nie jest tajemnicą, że Google nie ufa nowym stronom i poświęca im mniej uwagi. Jeśli Twoja strona jest nowa, czyli nie ma jeszcze autorytetu, to bardzo możliwe, że Google ją skanuje, ale nie dodaje do indeksu.

Dzieje się tak, ponieważ wyszukiwarka woli poświęcić zasoby na strony bardziej wartościowe, oczywiście z jej punktu widzenia. Nie jest to Twoja wina, a zasada, jaką kierują się roboty. Ten problem da się rozwiązać, pracując nad swoją stroną. W miarę zwiększania autorytetu domeny, Google jej zaufa i zacznie częściej indeksować. 

Dana podstrona ma słabą jakość treści

Podczas indeksowania konkretnej podstrony, robot może oznaczyć ją jako tzw. “thin content”, czyli treść słabej jakości. Jak już pewnie wiesz, Google promuje unikalne treści, które wnoszą realną wartość użytkownikom tej wyszukiwarki. 

Podstrony, które są kopiami innych (lub zmiany są minimalne), ewentualnie gdy zawierają małą ilość treści, będą oznaczone jako thin content i nie będą zaindeksowane. To właśnie z tego powodu należy dbać o jakość treść oraz eliminować błędy techniczne, które generują thin content.

Adres URL może być oznaczony jako tzw. “soft 404 error”

Soft 404 error, to podstrona, która wygląda jak strona błędu, podczas gdy realnie zwraca prawidłowy kod HTTP. Google sam zaczyna uważać, że dana strona jest błędem, na podstawie własnych algorytmów. Czasami wystarczy nieodpowiednia fraza w nagłówku, a jedno zdanie wprowadzające robota w błąd.

Najczęstsze przyczyny tego problemu to:

  • używanie fraz mogących wskazywać na to, że podstrona jest błędem, np: “404”, “strona nie istnieje”, “błąd”, “produkt nie jest dostępny”, 
  • Google niewłaściwie renderuje JS (o tym problemie będzie trochę później), przez co robot widzi tylko komunikat “strona potrzebuje JS do poprawnego wyświetlenia”, “Włącz Java Script”, co sugeruje błąd.
  • Strona błędu to zwykła storna, o statusie 200, na którą przekierowuje się użytkownika podczas błędu (domena.pl/404). To wprowadza Google w błąd, ponieważ status 404 powinien występować pod adresem docelowym. 

Podstrona może być duplikacją treści z innej podstrony, a nawet domeny

Google nie zaindeksuje strony, jeśli jej treść jest duplikacją innej treści. Jeśli skopiujesz artykuł z innej strony i w niezmienionej formie wkleisz go na swojego bloga — nie zostanie on zaindeksowany, ponieważ Google uzna go za duplikat. 

Z punktu widzenia wyszukiwarki, nie ma sensu indeksować dwa razy tej samej treści. Dlatego kopiowane treści słabo radzą sobie w Google. Wyszukiwarka premiuje unikalne teksty, które dają realną wartość użytkownikom. 

To samo dotyczy kopii wewnętrznych, jeśli powielasz treści w ramach własnego serwisu (celowo lub wyniku błędu), to Google uzna tylko jedną, którą sam wybierze jako oryginał. Reszta nie będzie indeksowana i to normalna sytuacja. Warto więc unikać duplikacji treści, np. planując dokładnie strategię SEO.

Błędy techniczne powodujące duplikację można zazwyczaj wyeliminować dość szybko wdrażając tagi canoniczne (canonical) albo wykonując przekierowania 301 ze wszystkich kopii na jeden właściwy adres, który ma być zaindeksowany. W przypadku kopii wytworzonej przez użytkownika konieczna będzie ręczna analiza i eliminacja duplikacji np. poprzez połączenie dwóch adresów w jedną wspólną podstronę. 

Podstrona ładuje się bardzo wolno

Jednym z technicznych problemów związanych z indeksowaniem jest szybkość strony. Podstrony ładujące się bardzo wolno mogą być traktowane przez Google, jako te niewarte indeksowania. Roboty nie chcą marnować cennych zasobów, żeby czekać. Zostawiają Twoją stronę i idą skanować dalej. 

Tutaj mamy dwa aspekty, pierwszym z nich jest to, co się dzieje po stronie serwera. Jeśli hosting jest powolny, a kod strony niezoptymalizowany pod kątem szybkości — roboty będą wolały odpuścić i wrócić w innym terminie. Warto zaznaczyć, że jeśli taka sytuacja będzie się powtarzać, to Google może zmniejszyć priorytet Twojej stronie i znacznie rzadziej ją odwiedzać. 

Kolejna sprawa to renderowanie strony. Niektóre roboty działają dosłownie jak użytkownik, i nie zerkają jedynie w kod, a nawet renderują (wyświetlają stronę jak użytkownik) za pomocą Chrome dla urządzeń mobilnych. Jeśli proces ładowania strony (szybkość strony) przez przeglądarkę jest powolny, to kolejny sygnał, żeby nieco odpuścić proces skanowania i indeksowania. Aby temu zaradzić, wystarczy skupić się na Core Web Vitals.

Problemy z renderowaniem JS

Niektóre strony buduje się przy pomocy nowoczesnych frameworków Javascript (React, Angular, Vue). To kolejna warstwa technologiczna dla Google, która dosłownie pożera zasoby podczas procesu skanowania i indeksowania strony. Nieprawidłowa implementacja technologii, może doprowadzić do tego, że roboty nie będą w stanie w ogóle skanować żadnej podstrony. 

Nawet jeśli strona jest wdrożona poprawnie, to ze względu na specyfikę technologi mogą wystąpić pewne okoliczności, które ograniczą Google w procesie indeksowania:

  • robot ma ograniczenia na użycia zasobów dla Twojej strony;
  • pliki JS uruchamiające stronę są zablokowane w robots.txt;
  • występują błędy JS, które nie pozwalają Google poprawnie wyrenderować stronę;
  • Google nie radzi sobie z interakcją ze stroną (nie może klikać / scrolować)

Problemy związane z JS są zawsze trudne do zdiagnozowania, ale ich eliminacja będzie konieczna, jeśli chcesz, aby Twoja strona była widoczna w Google. Na szczęście tego typu strony nie są zbyt popularne w małych i średnich biznesach. Na tym etapie warto wiedzieć, że jeśli firma robiąca strony proponuje “rewolucyjną technologię”, musisz się zastanowić, czy Google sobie z tym poradzi.  

Co zrobić, żeby poprawić indeksowanie swojej strony?

Strona się nie indeksuje? Listę potencjalnych problemów mamy za sobą, teraz czas na ich rozwiązanie. Mimo że Google ostatnio sprawia wiele problemów z indeksowaniem, to sytuacja nie jest beznadziejna. Zastosowanie poniższych porad niestety nie gwarantuje sukcesu, jednak na pewno zwiększysz swoje szanse. 

Zainstaluj Google Search Console

Pierwszy krok jest dość oczywisty, ale nie każdy zdaje sobie sprawę, jak dużo informacji o stanie indeksowania można wyciągnąć z Google Search Console. Narzędzie posiada dział dedykowany indeksowaniu i to tutaj znajdziesz wszelkie błędy, które Google z pewnością zaprezentuje. 

Ważne jest, aby narzędzie zainstalować wcześniej, najlepiej w chwili uruchomienia strony. GSC nie działa w czasie rzeczywisty, Google “odkłada” błędy podczas wizyt. Jeśli dziś zweryfikujesz domenę w tym narzędziu, to nie zobaczysz jakie problemy pojawiły się wcześniej. Narzędzie jest darmowe i można go wykorzystać do analizy ruchu, zachęcam każdego właściciela strony internetowej, aby używał Google Search Console.  

Próbować indeksować ręcznie

Jeśli masz już Google Search Console, to jesteś w stanie zaindeksować każdy adres URL ręcznie. Wystarczy go wkleić w górny pasek i kliknąć “Wyślij prośbę o zaindeksowanie”. To bardzo dobry sposób na zaindeksowanie kilku adresów URL i świetnie nadaje się do wysyłania aktualizacji do Google. Gdy np. zmieniasz treść jednego artykułu, możesz natychmiast powiadomić indeks Google. To szybszy sposób, niż czekanie, aż robot wpadnie na ten wpis. 

Niestety ręczne indeksowanie nie pomoże przy dużej ilości adresów URL. Jeśli chcesz zaindeksować więcej niż 10-20 podstron zadanie to okaże się uciążliwe. Nie dodasz więc w ten sposób setek produktów w sklepie.

Wyeliminuj błędy techniczne

Kolejną rzeczą, którą możesz zrobić, jest naprawienie wszelkich błędów technicznych powodujących duplikację treści i robiących zamieszanie w procesie skanowania strony. 

Będą to przede wszystkim:

  • wybranie jednej wersji używania domeny (z www lub bez www)
  • wyświetlanie jednej treści tylko pod jednym adresem
    • używanie canonical
    • nieindeksowanie parametrów
    • nieindeksowanie wersji z index.php
  • Zapanowanie nad przekierowaniami
    • przekierowanie duplikatów do oryginałów
    • eliminacja łańcuchów przekierowań
  • Optymalizacja dyrektyw w robots.txt

Przyspieszyć stronę

Szybkość strony realnie wpływa na proces indeksowania. Postaraj się, aby strona spełniała wymagania szybkości podawane w Google Search Console. Nie musisz osiągać topowych wyników w laboratoryjnych narzędziach typu PageSpeed czy GTmetrics. Ważne jest, aby realni użytkownicy mieli szybko załadowane strony. Dlatego skupienie się na optymalizacji szybkości z GSC jest efektywne. 

Więcej o szybkości strony znajdziesz w dwóch artykułach. Wiedza tam zastosowana będzie pozytywnie wpływała na indeksowanie w Google.

Zaplanować strukturę, aby była logiczna

Google znacznie szybciej będzie indeksował stronę, jeśli struktura całego serwisu będzie logiczna. Przygotowanie odpowiedniej struktury pozwoli na uniknięcie błędów z duplikacją treści oraz kanibalizacją słów kluczowych. Dzięki poprawnej strukturze proces crawlowania (skanowania przez roboty) będzie optymalny.

Przygotowanie odpowiedniej struktury wymaga trochę pracy, ale warto nie tylko pod kątem indeksowania, ale także późniejszego budowania widoczności. Więcej na ten temat przeczytasz w artykule o strategii SEO.

Zbudować linkowanie wewnętrzne

Linki wewnętrzne znajdujące się w treści strony ukazują użytkownikom oraz rootom Google, że w innych miejscach serwisu można znaleźć inne treści. W procesie indeksowania linkowanie wewnętrzne ma ogromne znaczenie i zrobione prawidłowo znacznie przyspiesza proces skanowania oraz indeksowania strony w Google.

Temu tematowi poświęciliśmy osobny artykuł, dlatego zapraszam Cię do wpisu: Linkowanie wewnętrzne, czyli jak znacznie zwiększyć ruch z Google?

Podsumowanie

Indeksowanie w Google to temat bardzo ważny, a często pomijany. Mam nadzieję, że udało mi się przynajmniej nakreślić podstawy związane z indeksem Google i przyczynić się do poprawy procesu indeksowania Twojej strony.