Jak zapewne wiesz, Google nie działa w czasie rzeczywistym. Zamiast tego nieustanie skanuje cały internet w poszukiwaniu informacji, które mogą się kiedyś przydać osobom szukającym. Treść każdej podstrony może być wykorzystana do stworzenia wyniku wyszukiwania, dlatego warto, aby Google znał wszystkie ważne podstrony Twojego serwisu. Mapa strony jest jednym z czynników wpływających na lepsze indeksowanie Twojej strony. Zobacz jak poprawnie używać pliku sitemap.xml.

Po co w ogóle używać mapy strony?

Jeśli masz małą stronę, to robot wyszukiwarki nie będzie miał żadnego problemu ze sprawdzeniem wszystkich podstron. Natomiast w przypadku dużych portali czy sklepów internetowych posiadających setki podstron proces skanowania jest bardziej skomplikowany. 

Google nie ma wystarczających zasobów, by codziennie i w pełni skanować każdą dużą stronę. Dlatego często ogranicza się do kilkunastu, kilkudziesięciu czy kilkuset podstron dziennie. Nie zawsze podstrony te będą właściwe (na przykład, gdy nie masz dobrze określonej strategii indeksowania), dlatego warto zrobić wszystko by wskazać robotom skanującym podstrony, na których Ci najbardziej zależy, między innymi tym zajmują się właśnie pliki map strony (sitemap.xml).

Czym jest sitemap.xml?

Mówiąc w skrócie, mapa strony to lista wszystkich adresów URL Twojego serwisu, które powinny pojawić się jako wyniki wyszukiwania. Jeśli chcesz, aby dana podstrona była wyświetlana w Google, powinna ona się znaleźć w pliku sitemap.xml, który wygląda następująco:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"  xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9">
    <url>
        <loc>https://octamedia.pl/</loc>
        <lastmod>2019-09-24T14:15:31+00:00</lastmod>
    </url>
    <url>
        <loc>https://octamedia.pl/seo/</loc>
        <lastmod>2019-09-10T16:46:04+00:00</lastmod>
    </url>
    <url>
        <loc>https://octamedia.pl/ads/</loc>
        <lastmod>2019-09-10T08:57:19+00:00</lastmod>
    </url>

    ...

</urlset>

Czym jest format XML?

XML (Extensible Markup Language), to język znaczników pozwalający na przetrzymywanie informacji czytelnych zarówno dla użytkownika jak i komputera. Składnia pliku XML to system znaczników, ułożonych w pewną strukturę, która jest z definiowana przez osobę lub aplikację ją tworzącą. 

Najbardziej znanymi dokumentami w formacie XML są wszystkie strony internetowe. HTML, który odpowiada za budowę stron www, powstał na bazie XML, różnica między tymi formatami polega na treści znaczników. Standard HTML, zawiera elementy, które są ustandaryzowane (np. div, a, ul, section, article itd), natomiast XML daje dowolność w tworzeniu własnych znaczników.

W przypadku map strony, XML jest nośnikiem danych o adresach URL, dzięki temu każda strona przekazuje swoje adresy w takim samym formacie, a Google jest w stanie wszystkie informacji prawidłowo odczytać.

Jakie dane powinny się znaleźć w sitemap.xml

Plik mapy strony w formacie XML, podobnie jak HTML ma pewną zdefiniowaną z góry strukturę, tak aby wszyscy korzystali z jednego standardu.

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"  xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9">
    <url>
        <loc>https://octamedia.pl/</loc>
        <lastmod>2019-09-24T14:15:31+00:00</lastmod>
    </url>
    <url>
        <loc>https://octamedia.pl/seo/</loc>
        <lastmod>2019-09-10T16:46:04+00:00</lastmod>
    </url>
    <url>
        <loc>https://octamedia.pl/ads/</loc>
        <lastmod>2019-09-10T08:57:19+00:00</lastmod>
    </url>

    ...

</urlset>

W zasadzie mapa strony XML sprowadza się do kilku najważniejszych znaczników. Najważniejszą częścią pliku jest znacznik <urlset> zawierający wiele znaczników <url>. Oznacza to nic innego jak zestaw adresów URL, które właśnie chcemy pokazać Google. Każdy znacznik <url>, zawiera w sobie kilka dodatkowych znaczników, które mogą, ale nie muszą się tam znajdować. W zasadzie tylko pierwszy jest wymagany — z oczywistych powodów. Oto lista najważniejszych, wartych wspomnienia:

<loc>

Loc (location) to znacznik oznaczający lokalizację podstrony, podajemy w nim adres URL, pod którym robot znajdzie jej treść. Adres należy podać w pełnej formie włącznie z protokołem (http lub https).

<xhtml:link>

<xhtml:link> to znacznik wspierający potrzebny w witrynach wielojęzykowych. Za jego pomocą możesz przekazać alternatywne wersje tej podstrony dostępne w innych językach.

<przykład do wklejenia>

<lastmod>

<lastmod> oznacza ostatnią modyfikację treści na danej podstronie. Dzięki temu znacznikowi, roboto Google wie, czy podstrona zmieniała swoją treść od czasu ostatniego skanowania.

<changefreq>

Znacznik <changefreq> to parametr, który określa, jak często dany adresu URL jest zmieniany. Mozna umieścić tutaj wartości typu: daily, weekly, monthly itd. Dzięki temu Google wie, jak często zmieniasz treść na podstronie (codziennie, co tydzień, co miesiąc, itd.)

<priority>

<prioryty> odpowiada za określenie priorytetu danego adresu URL. Kiedyś można było, za jego pomocą określać, jak bardzo ważna jest dla ciebie dana podstrona. Aktualnie znacznik nie jest wspierany i Google określa priorytet we własnym zakresie. Na przykład na podstawie linkowania wewnętrznego.

Gdzie umieścić plik sitemap.xml

Plik sitemap.xml powinien się znaleźć na Twoim serwerze ze stroną, której dotyczy. Na przykład jeśli mapa w formacie XML dotyczy Twojej strony, plik powinien być dostępny pod adresem Twojadomena.pl/sitemap.xml.

Oczywiście nazwa pliku jak i jego dokładna lokalizacja może być różna. Ważne, aby plik był dostępny, natomiast może on się znajdować w innym miejscu i mieć inną nazwę, na przykład:

  • twojadomena.pl/mapa-strony.xml
  • twojadomena.pl/folder/sitemap.xml
  • twojadomena.pl/dodatkowy-folder/mapa-strony.xml
  • itd.

Jak dodać mapę do Google?

Sama obecność pliku z mapą strony nie wiele pomoże, jeśli Google go nie znajdzie. Jedyne miejsce, jakie robot może sprawdzić to adres Twojadomena.pl/sitemap.xml. Jednak zawsze warto wskazać Google właściwy adres pliku sitemap.xml. Można to zrobić na kilka sposobów:

Za pomocą robots.txt

Plik robots.txt jest zawsze odwiedzany przez robota, który zaczyna skanować daną stronę. Najprostszym sposobem na pokazanie lokalizacji mapy strony w formacie XML, będzie dodanie do pliku robots.txt poniższej dyrektywy:

Sitemap: https://twojadomena.pl/folder/plik-sitemapy.xml

Dzięki jednej linijce kodu Google uwzględni Twoją mapę strony w procesie skanowania i indeksowania domeny. 

Za pomocą Google Search Console

Kolejną opcją jest dodanie mapy do Google przez Google Search Console. Jeśli zweryfikowałeś już GSC, w lewym menu wybierz przycisk “mapy witryn”, prowadzi on do panalu zarządzania mapami:

Wystarczy podać adres, pod którym znajduje się właściwa mapa i kliknąć “Prześlij”. Opcja z Google Search Console jest dość wygodna, ponieważ, zaraz po przesłaniu, system Google sprawdzi poprawność budowy mapy i wyświetli ewentualne błędy. Do tego, możesz sprawdzić w tym miejscu stan wcześniej dodanych map strony w formacie XML.

Za pomocą narzędzia do pingowania

Kolejny sposób dodania pliku sitemap.xml do Google to narzędzie do pingowanie, które polega na wysłanie requesta do serwera Google z adresem sitemapy. W praktyce polega to na wklejeniu do paska przeglądarki poniższego adresu:
https://www.google.com/ping?sitemap=https://twojadomena.pl/sitemap.xml

Po zatwierdzenia adresu zobaczysz taki komunikat:

Odebrano powiadomienie o mapie witryny
Mapa witryny została dodana do naszej listy map witryn do przemierzenia. 
Jeśli po raz pierwszy powiadamiasz Google o tej mapie witryny, dodaj ją za pośrednictwem strony http://www.google.com/webmasters/tools/ , aby móc śledzić jej status. 
Pamiętaj, że do indeksu witryn nie dodajemy wszystkich zgłoszonych adresów URL. Nie możemy także przewidzieć ani zagwarantować, kiedy i czy dany adres się w nim pojawi.

Ten sposób wydaje się być najtrudniejszy oraz nie do końca potrzebny, jednak pozwala on na automatyczne dodawanie map na przykład zaraz po ich wygenerowaniu przez aplikację. Dzięki temu nie musisz pamiętać o każdorazowym dodaniu mapy. Skrypt Twojego sklepu czy portalu sam o to zadba.

Rodzaje map

Mapy strony w XML, mogą występować w kilku rodzajach, w zależności od tego, z jakim serwisem mamy do czynienia, oto najczęstsze przykłady:

Standardowa mapa

Najważniejszym rodzajem jest standardowa wersja pliku sitemap.xml. Będzie on zawsze zawierał informacje o wszystkich adresach URL danej domeny. Używanie tego typu mapy jest zalecane dla wszystkich dużych portali czy sklepów internetowych.

Mapa strony z grafikami lub wideo

Mapy z grafikami lub plikami wideo to specjalny rodzaj mapy, przeznaczone dla stron, które operują na grafice i filmie. Jeśli główną część strony stanowi obraz, warto stosować te dodatkowe mapy XML z grafiką i/lub wideo, na przykład gdy posiadasz sklep z fototapetami lub sprzedajesz zdjęcia online. 

Mapa XML dla Google News

Strony, które biorą udział w programie Google News, czyli dostarczają wiadomości do systemu Google, mogą korzystać z sitemapy przeznaczonej do wiadomości newsowych. Dzięki temu, podawane wiadomości szybko pojawią się w systemie.

Mapa zbiorcza (Sitemap XML Index)

Mapa zbiorcza to plik XML zawierający linki do innych map. Tworzenie i używanie pliku sitemap.xml ma pewne ograniczenia:

  • rozmiar pliku nie może przekraczać 50 MB
  • ilość adresów dodanych w mapie nie może być większa niż 50000 adresów URL

Istnieje wiele stron, które posiadają znacznie więcej niż 50000 adresów, w takim przypadku należy stworzyć wiele plików sitemap.xml. Jeśli Twój serwis ma 200 000 adresów, będziesz musiał stworzyć aż 4 pliki, będą też strony o bardzo dużej ilość adresów i posiadające nawet kilkadziesiąt plików z mapą w formacie XML.

Dodawanie osobno każdego z nich byłoby mało efektywne, dlatego Google pozwala zrobić sitemapę zawierającą inne sitemapy. Dzięki takiemu zabiegowi wystarczy, że dodasz tzw. indeks sitemap. Wszystkie zawarte w nim mapy zostaną dodane automatycznie. 

Jak wygenerować sitemapę?

Zanim wyślesz mapę do Google, trzeba ją wygenerować, służą do tego pewne narzędzia czy sposoby. W zależności od sytuacji, na pewno będziesz używał jednego z nich. 

Generatory sitemap.xml

Generatory sitemap.xml to aplikacje webowe, które są w stanie tworzyć mapy strony. Jedyne co musisz zrobić w takiej aplikacji, to podanie domeny. Aplikacja sama wygeneruje dla ciebie mapę strony, którą będziesz mógł pobrać i wysłać na serwer. Przedstawicielem takiego generatora jest https://www.xml-sitemaps.com/, który generuje do 500 podstron za darmo. Jeśli Twoją domenę ma więcej podstron, będziesz musiał zapłacić.

Crawlery

Crawlery to narzędzia do skanowania strony internetowych, poniekąd symulują one zachowanie robota Google, przechodząc po wszystkich podstronach Twojego serwisu. Po wykonaniu pełnego skanu narzędzia takie mają listę wszystkich adresów URL Twojej strony, mogą więc w łatwy sposób wygenerować mapę strony. Przykładem takiego crawl’era jest Screaming Frog, który w darmowej wersji będzie w stanie przeskanować stronę do 500 podstron. 

Wtyczki do aplikacji/strony

Dwa powyższe sposoby generowania mapy strony mają jedną wadę, w obu przypadkach proces tworzenia mapy odbywa się z zewnątrz. Zewnętrzna aplikacja najpierw skanuje Twoją stronę, a następnie tworzy jej mapę.
Jeśli polityka indeksowania strony będzie niepoprawna, takie narzędzie może zabłądzić i wygenerować mapę strony z niewłaściwymi adresami URL.

Dlatego polecam, aby mapa strony była generowana przez Twój CMS. Generowanie pliku sitemap.xml od wewnątrz daje wiele możliwości. Możesz właściwie definiować podstrony, jakie mają pojawić się w takiej mapie i wykluczać strony nie biorące udziału w indeksowaniu.

Każdy liczący się CMS ma wbudowaną funkcje tworzenia map strony w formacie XML lub pozwala doinstalować wtyczkę/dodatek, który posiada taką funkcjonalność.

Stylowanie wyglądu pliku sitemap.xml

Większość map strony posiada jedynie suchy kod XML, jednak nic nie stoi na przeszkodzie w stylowaniu takiego kodu (analogicznie do stylowania HTML za pomocą CSS). Dzięki takiemu zabiegowi, mapy mogą być też czytelne dla ludzi.

Przykładem takiej mapy będzie mapa wygenerowane przez wtyczkę Yoast SEO, zobacz mapę naszej strony dostępnej pod poniższym adresem:
https://octamedia.pl/sitemap_index.xml

Jest to mapa zbiorcza kilku innych map, możesz je kliknąć i odczytać w łatwy sposób. To ułatwienie pozwala lepiej pracować z plikami map w formacie XML.

Plik sitemap.xml w procesie indeksowania strony

Wiesz już jak budować plik sitemap.xml, teraz dowiesz się jakie adresy powinien zawierać. Proces indeksowania strony powinien być możliwie dokładnie zaplanowany. Musisz wiedzieć, które części Twojej strony powinny być indeksowane. Mapa strona powinna być tożsama z Twoją strategią indeksowania.

Jakie adresy URLpowinny być w pliku sitemap.xml?

W pliku mapy strony powinieneś umieścić wszystkie adresy URL, które potencjalnie mogą wyświetlić się jako wynik wyszukiwania i dać wartość potencjalnemu klientowi.

W przypadku sklepów internetowych będą to na przykład:

  • strony wszystkich produktów,
  • strony wszystkich kategorii,
  • strony pozostałych taksonomii (filtrów),
  • ewentualne kombinacje taksonomii/kategorii (jeśli mogą przynieść ruch)*,
  • strony wpisów blogowych,
  • wszelkiego rodzaju poradniki,
  • strony kategorii blogowych,
  • strony statyczne z pomocą (FAQ, informacje, których szukają kupujący),

* – ewentualne kombinacje taksonomii to przede wszystkim różnego rodzaju strony z filtrami, które mogą się łączyć tworząc nowy adresu URL, który pojawi się w Google na kombinacje słów kluczowych. Na przykład:

  • /buty/damskie/
  • /buty/adidas/

Połączenie dwóch powyższych adresów może zaowocować pojawieniem się Google na frazę „buty damskie adidas” z nowym adresem URL: /buty/damskie/adidas/

Należy zwrócić szczególną uwagę nad powstawaniem takich adresów URL, ponieważ duża ilość takich kombinacji może skutkować powstaniem nieskaczącej ilości adresów, których Google nie będzie w stanie zeskanować. Panowanie nad takimi kombinacjami powinno wynikać ze ściśle określonej strategii indeksowania.

W przypadku blogów czy portali najważniejszymi adresami URL, jakie powinny się pojawić, są adresy wpisów/publikacji oraz ich kategorii. To te elementy odpowiadają za generowanie ruchu z Google.

W przypadku firm oferujących na przykład usługi plik sitemap.xml powinien skupić się głównie na podstronach związanych z ofertą oraz ewentualnym blogiem firmy. Zgodnie z zasadami SEO, każda usługa powinna posiadać własną podstronę, każda taka podstrona powinna się znaleźć w pliku mapy strony w formacie XML.

Jakie adresy URL powinny być wykluczone z pliku sitemap.xml?

W pliku sitemap.xml nie powinno się umieszczać wszystkich adresów URL, które są wykluczone z procesu indeksowania (za pomocą robots.txt lub meta robots=”noindex” itp.). Google nie potrzebuje listy adresów, które nie są zablokowane przed indeksowaniem. Dlatego nie warto dodawać do mapy strony adresów takich jak:

  • adresów stron logowania,
  • adresów dostępnych tylko po zalogowaniu,
  • adresów stron niemających żadnych wartości dla użytkownika
  • adresów, których nikt nie szuka (polityka prywatności, regulaminy itp)
  • stron zabezpieczonych hasłami
  • itp

Analiza indeksowania map w Google Search Console

Weryfikacja Google Search Console pozwoli Ci na analizowanie poprawności działania map strony. Wystarczy, że przejdziesz do sekcji „Mapy witryn” dostępnej w lewym panelu.

W przypadku gdy sytuacja jest poprawna zobaczysz taki widok:

Lista poprawnych map strony

W przypadkach problematycznych, Google pokaże Ci jakie problemy napotkało przy przetwarzaniu mapy, na przykład:

Błąd związany z niepoprawną mapą witryny

Warto co jakiś czas sprawdzać, czy mapy strony, które generujesz, spełniają wymogi Google i czy nie powodują ewentualnych problemów. Dodatkowo warto też zaglądać do zakładki związanej ze stanem indeksowania,:

Stan indeksowania w GSC

Dzięki temu raportowi dowiesz się o wszystkich problemach związanych z każdym adresem URL Twojej witryny.