Czego się dowiesz z tego artykułu?

  • Czym jest duplikacja treści?
  • Dlaczego duplicate content przeszkadza w SEO?
  • Jakie są rodzaje duplikacji treści?
  • Jak poradzić sobie z duplicate content?

Czym jest duplikacja treści?

Duplikacja treści (z ang. duplicate content) to powielanie treści w internecie. Duplikacja treści może być wynikiem błędu technicznego lub celowego działania, gdzie powielamy fragment lub całą treść danej podstrony i umieszczamy ją na innej podstronie, lub w całkiem innej domenie.

Duplikacja treści to zjawisko zawsze negatywne. Duplicate content oprócz problemów z Google, może mieć też konsekwencje prawne (prawa autorskie), zwłaszcza jeśli kopiujemy treści innej strony bez zgody właściciela treści.

Duplikacja treści a SEO

Duplikacja treści w kontekście obecności w Google to bardzo ważny temat i usunięcie tego problemu, może znacznie poprawić widoczność strony. Zanim przejdziemy do omawiania poszczególnych przypadków duplicate content z punktu widzenia SEO, zobaczmy perspektywę Google.

Wyobraź sobie na chwilkę, że jesteś robotem Google i ciągle skanujesz strony internetowe w poszukiwaniu ciekawych treści, które musisz zapamiętać. Oczywiście Twoja pamięć jest ograniczona, dlatego zapisujesz wszystkie strony w bibliotece wspólnej z innymi robotami. Tak działa proces indeksowania w Google.

Teraz zastanów się, co by było, gdybyś co chwilę dostawał takie same lub podobne treści. Jaka jest Twoja pierwsza myśl? Najczęściej byłoby to coś na zasadzie: „To bez sensu, ciągle czytam to samo. Nawet nie wiem, która wersja jest oryginalna.” Google ma problem z duplikacją treści, ponieważ marnuje swoje bardzo cenne zasoby na skanowanie tych samych treści, a dodatkowo nie do końca wie, które są oryginalne.

Gdyby nie panujące zasady, każdy mógłby skopiować największą stronę i cieszyć się podobnym ruchem, pozycjonowanie stron byłoby bez sensu. Oczywiście zasady nie są do końca sprawiedliwe, ponieważ Google nie jest w stanie stwierdzić, kto pierwszy napisał dany tekst.

Zamiast tego wyszukiwarka stosuję regułę, którą można opisać w uproszczeniu: Kto ma lepszy autorytet domeny, ten jest właścicielem treści. Także, jeśli jakiś duży portal (o dużym autorytecie Google) skopiuje Twoje treści, to wyszukiwarka uzna, że te treści należą do tego portalu.

Duplikacja treści a kanibalizacja słów kluczowych

Pojęcie duplikacji treści pojawia się często przy omawianiu zjawiska kanibalizacji słów kluczowych. Jednak duplikacja treści i kanibalizacja to nie to samo. Duplikacja to skopiowanie treści z jednej strony (a konkretniej z jednego adresu URL) do drugiej. Kanibalizacja natomiast to optymalizacja dwóch różnych adresów na te same słowa kluczowe w ramach jednej domeny.

Jakie są rodzaje duplikacji?

Duplikacja treści może mieć przyczynę wewnętrzną (własna domena) oraz zewnętrzną (inna domena). Te dwa rodzaje duplicate contentu mają inną charakterystykę oraz inne sposoby eliminacji, dlatego opiszę je osobno.

Wewnętrzna duplikacja treści

Wewnętrzna duplikacja treści, to szereg problemów związanych z samą stroną internetową. Wewnętrzny duplicate content może mieć dwie przyczyny: błąd techniczny (niewiedza) lub też celowe działania (na przykład kopiowanie tej samej treści na różne podstrony).

W wewnętrznej duplikacji chodzi więc o to, że w ramach jednej domeny, dana treść pojawia się w wielu miejsach, a konkretnie pod wieloma adresami URL. Z doświadczenia wiem, że na szczęście wewnętrzna duplikacja jest łatwiejsza w eliminacji, ponieważ mamy dostęp do własnej strony i jesteśmy w stanie poprawić sytuację.

Zewnętrzna duplikacja treści

Analogicznie, zewnętrzna duplikacja treści to kopie Twoich tekstów na innych stronach, albo odwrotnie — kopie treści z innych stron w Twojej domenie. Tutaj mamy dwa kierunki duplicate content, jeśli to ty kopiujesz treści, to wystarczy przestać to robić i zacząć sukcesywnie pisać unikalną treść.

Gorzej będzie, jeśli to inna strona kopiuje treści, ponieważ Google może się różnie zachować w takiej sytuacji. Teoretycznie ta strona kopiuje od Ciebie i to tam leży problem. Niestety może się zdarzyć tak, że domena, która od Ciebie kopiuje, ma lepszą reputację w Google i wyszukiwarka uzna Twoje treści jako duplikację treści.

Narzędzia do wykrywania duplikacji treści

W sieci istnieje wiele narzędzi do namierzania duplikacji treści. Każde mają swoje wady i zalety, ale uważam, że żadne z nich nie będzie w stanie namierzyć duplikacji w 100%. Nawet skopiowanie fragmentu tekstu i wpisanie go do Google nie zawsze powie nam prawdę, a co mówić o testach na wielką skalę.

Takie narzędzia przydadzą się jednak do namierzania problemów i mogą nadać właściwy kierunek, dlatego podam kilka, które mogą Ci się przydać:

  • Screaming Frog — narzędzie do skanowania strony, które sprawdzi duplikację tytułów opisów czy nagłóków H1. Z treścią główną raczej sobie nie poradzi.
  • Copyscape — narzędzie do analizowania duplikacji zewnętrznej. Teoretycznie działa jak antyplagiat, ale moim zdaniem jakość analizy pozostawia wiele do życzenia. Na wstępne analizy wystarczy.
  • Siteliner – narzędzie online dedykowane duplikacji treści. Skanuje stronę i pokazuje procent duplicate content.

Najczęstsze problemy z duplikacją i ich rozwiązania

Wiele problemów z duplikacją pojawia się notorycznie, dlatego postaram się najczęstsze scenariusze. To powinno pomóc większości osób i uporać się z podstawowymi problemami z duplicate content.

Te same podstrony dostępne pod różnymi adresami URL

To błąd techniczny, który powoduje, że Google ma dostęp do tej samej treści przez różne adresy URL.

Większość CMS’ów, a w zasadzie wszystkie używają „przyjaznych adresów URL”. W większości aplikacji internetowych za obsługę całości odpowiada tylko jeden plik (na przykład index.php lub app.php). Poszczególne podstrony to pewne parametry tego pliku np:

  • index.php?page=nazwa-strony
  • index.php?id=8373
  • index.php?strona=3
  • index.php?page_id=342

Z punktu widzenia silnika CMS, przyjazne adresy dodawane są później i podstrony są dostępne pod „ładnymi” adresami URL. Część CMSów nie robi nic z tymi dziwnymi adresami, przez co jedna podstrona będzie dostępna pod dwoma adresami:

  • domena.pl/index.php?page=nazwa-strony
  • domena.pl/nazwa-strony

Z punktu widzenia SEO to błąd, ponieważ ta sama treść jest pod różnymi adresami, a dla Google oznacza to, że są to tak naprawdę dwie podstrony o identycznej treści.

Rozwiązanie

Rozwiązaniem tego problemu są przynajmniej dwa. Pierwsze to przekierowanie wszystkich wersji strony do jednej, właściwej. Najczęściej będzie to wersja z ładnym adresem URL. Czyli należy tak ustawić CMS, aby adresy typu domena.pl/index.php?page=nazwa-strony przekierowywały na adresy typu przyjazne typu domena.pl/nazwa-strony.

Drugie rozwiązanie jest takie, aby inne wersji niż ta właściwa zwracały błąd 404. W takim przypadku należy pamiętać, aby tylko przyjazne adresu URL brały udział w linkowaniu wewnętrznym.

Używanie wersji WWW i bez WWW jednocześnie

Wiesz już, że dla Google każdy unikalny adres URL to osobna podstrona. Serwery bardzo często są skonfigurowane w ten sposób, że strona może działać pod dwoma adresami:

  • adres.pl
  • www.adres.pl

Znów, dla Google to są dwa różne adresy, a więc mamy tutaj kopię strony głównej oraz każdej podstrony, bo każda jest dostępna w wersji z przedrostkiem www lub bez.

Rozszerzeniem tego problemu może być ustawienie tzw. wildcard, które powoduje, że silnik strony może generować nieskończoną ilość subdomen:

  • adres.pl
  • www.adres.pl
  • test.adres.pl
  • costam.adres.pl
  • kolejny-duplikat.adres.pl
  • mozna-tak-ciagle.adres.pl
  • znow-kopia.adres.pl

Tym nieskończoną liczbę instancji strony dostępnych pod różnymi adresami, co powoduje chaos, a Google nie wie, która jest prawdziwa.

Rozwiązanie

Rozwiązaniem tego problemu może być prosty kawałek kodu użytego w pliku .htaccess (serwery apache). Dzięki temu rozwiązaniu każda inna wersja strony przekieruje się automatycznie na tę właściwą i zarówno użytkownik, jak i Google trafią na właściwą wersję strony.

Ten kod należy umieścić w pliku .htaccess

RewriteEngine On
RewriteCond %{HTTP_HOST} !^www\.
RewriteRule ^(.*)$ https://www.%{HTTP_HOST}/$1 [R=301,L]

Powyższy kod sprawi, że każda wersja inna niż ta z przedrostkiem www, zostanie przekierowana na wersję z www.

Uwaga!
Edycja liku .htaccess może narobić szkody całej stronie. Przed zmianą pliku wykonaj kopię zapasową lub skontaktuj się z osoba, która wie, jak ten plik działa.

Używanie wersji z SSL i bez jednocześnie

Certyfikat SSL to dobre rozwiązanie zwiększające bezpieczeństwo strony. Jednak jego nieprawidłowe wdrożenie może być powodem duplikacji treści. Jeśli Twoja strona jest dostępna w dwóch wersjach:

  • http://domena.pl
  • https://domena.pl

Jest to analogiczna sytuacja jak w problemie powyższym. Dodanie jednej literki do adresu powoduje, że dla Google to kolejny nowy adres URL (nowa podstrona).

Rozwiązanie

Problem także można rozwiązać za pomocą pliku .htaccess analogicznym kodem, który może nawet rozwiązać oba problemy jednocześnie:

RewriteEngine On

# Przekierowanie na wersję HTTPS
RewriteCond %{HTTPS} off
RewriteRule ^(.*)$ https://%{SERVER_NAME}%{REQUEST_URI} [R=301,L]

# Przekierowanie na wersję z www
RewriteCond %{HTTP_HOST} !^www\.
RewriteRule ^(.*)$ https://www.%{HTTP_HOST}/$1 [R=301,L]

Powielanie treści na paginacji

Bardzo częstym problemem, związanym z duplikacją treści, zwłaszcza przeszkadzających w pozycjonowaniu sklepów internetowych, jest powielanie treści na kolejnych stronach paginacji. Jak wiadomo, SEO wymaga, aby każda kategoria posiadała opis zawierający odpowiednie słowa kluczowe. Powielanie tych opisów na wszystkich stronach paginacji to błąd.

Rozwiązanie

Rozwiązanie tego problemu z duplikacją treści jest dość proste. Wystarczy przerobić szablon sklepu, aby opis kategorii pojawiał się na pierwszej stronie kategorii. Dokładnego rozwiązania nie podam, ponieważ zależy to od silnika sklepu. Najlepiej będzie zgłosić ten problem osobie opiekującej się sklepem.

Niepoprawnie wdrożone wersje językowe

Wersje językowe strony, jak sama nazwa wskazuje, powinny być w innym języku. Jednak bardzo często wersja zagraniczna, na przykład angielska posiada polskie treści, które zostały pominięte w procesie tłumaczenia. Nic złego w tym, że nie wszystkie strony są przetłumaczone, jednak problem pojawia się, gdy te nie przetłumaczone, zamiast zostać ukryte — widnieją w języku domyślnym.

Podczas wdrożeń wersji językowej, zazwyczaj „kopiuje się treści”, które następnie są tłumaczone. Jeśli jakaś sekcja czy seria podstron nie zostanie przetłumaczona, to zostajemy z wersją angielską, która jest w języku polskim i powoduje duplikację treści.

Rozwiązanie

Rozwiązaniem tego problemu jest monitorowanie stanu tłumaczenia strony oraz duplikacji meta tagów, które jest bardzo łatwo zauważyć. Jeśli dwie strony mają taki sam tytuł, to strona jest zduplikowana i należy poprawić tłumaczenie lub ukryć wersję w języku polskim.

Zaindeksowanie strony deweloperskiej

Zaindeksowanie wersji deweloperskiej to jeden z częstszych błędów duplikacji zewnętrznej, który można łatwo wyeliminować. Problem pojawia się, gdy Tworzysz nową stronę, która jest testowana na innej domenie. Może to być subdomena (nowa.aktualnastrona.pl) lub w domenie firmy deweloperskiej (klient.adresfirmy.pl).

To na takim roboczym adresie wdraża się wszystkie zmiany, poprawki i umieszcza treści (przynajmniej tak powinno być). Zazwyczaj po wdrożeniu takiej strony na docelowy adres zapomina się o tym roboczym adresie, który staje się kopią 1:1 Twojej nowej strony.

Rozwiązanie

Rozwiązanie tego problemu z duplikacją zewnętrzną jest banalne. Wystarczy przypilnować, aby firma, która tworzy strony www, nie dopuściła do zaindeksowania tymczasowej wersji strony w Google. Można to zrobić w pliku robots.txt, stosując odpowiednią dyrektywę.

Podsumowanie

Duplikacja treści to problem dość powszechny, wiele stron kopiuje treści z innych miejsc lub robi to nieświadomie przez błędy techniczne. O ile te najprostsze elementy związane z duplicate content da się szybko naprawić, o tyle trzeba ciągle dbać, aby Twoja strona miała unikalne teksty. Pamiętaj o tym, tworząc treści na swoją stronę.