SCROLL

Robots.txt a SEO

Roboty Google skanują miliony stron internetowych szukając informacji wartościowych dla osób wyszukujących daną frazę. Aby ułatwić Google dotarcie do treści na Twojej stronie stosuje się pliki robots.txt. Czym są pliki robots.txt i jak się je używa?

Plik robots.txt – czym jest, co zawiera i gdzie się znajduje?

Plik robots.txt jest to plik, który zawiera proste instrukcje dla robotów Google skanujących Twoją domenę, zezwalając lub blokując dostęp do pewnych obszarów strony. Mogą znajdować się tam adresy, które są wykluczone z indeksowania. W ten sposób, taki plik blokuje dostęp do stron, które Twoim zdaniem nie są ważne z punktu widzenia wyszukiwania. Ma to szczególne znaczenie jeśli chodzi o duże i skomplikowane strony, gdzie część podstron może być nieistotna pod kątem SEO. Takie ograniczenia pomagają zoptymalizować tzw. crawl budget.

Aby plik działał poprawnie musi zawierać kilka ważnych elementów. Pierwszym z nich jest user-agent. Definiuje on robota wyszukiwarki, w zależności na jakim systemie on działa. Jest to pierwszy wiersz każdej reguły. Użycie „* ” powoduje, że reguła odnosi się do wszystkich robotów Google.

Kolejnymi elementami są dyrektywy allow i disallow. Pod tymi regułami znajdują się informacje dla robotów, czy mogą wejść na dany adres URL i go zeskanować. Domyślnie mają one pozwolenie na odwiedzenie wszystkich adresów. Dlatego też, reguła Disallow przekazuje robotom Google informacje, które katalogi lub strony domeny głównej nie powinny być indeksowane. Natomiast Allow stosuje się, aby dodać wyjątki. Jeśli używając Disallow blokujesz dostęp do jakiegoś katalogu, to za pomocą Allow możesz pozwolić robotowi na zeskanowanie jakiegoś pliku z zablokowanego wcześniej katalogu. Drugą możliwością jest dodanie wyjątku jeśli chodzi o konkretnego robota. Możesz zablokować wszystkie roboty Google oprócz tego, którego wybierzesz i pozwolisz mu na dostęp.

Ostatnią dyrektywą, którą zawiera plik robots.txt jest mapa strony. Jest to element opcjonalny, dzięki któremu możesz wskazać lokalizację pliku sitemap.xml.

Plik robots.txt powinien znajdować się pod adresem twojadomena.pl/robots.txt. Dla przykładu u nas znajduje się pod adresem https://adshock.pl/robots.txt. Jeśli chcesz sprawdzić czy taki plik istnieje na Twojej stronie, wystarczy, że dopiszesz do własnej domeny /robots.txt.

Generowanie pliku robots.txt

Na stworzenie tego rodzaju pliku istnieje kilka sposobów. Oto one:

  1. Statyczny plik

Jest to najpopularniejsza metoda na stworzenie pliku. Tworzysz plik z rozszerzeniem .txt i umieszczasz go na serwerze. Metoda ta wymaga znajomości wszystkich elementów związanych z działaniem pliku, ponieważ wszystkie je dodajesz ręcznie.

  1. Generator pliku

Drugim sposobem na stworzenie pliku robots.txt jest generator takich plików. Jest to dobre rozwiązanie, jeśli nie znasz dokładnej składni pliku. Podajesz wyłącznie adresy URL i/lub roboty, które chcesz zablokować oraz ewentualnie mapę strony w formacie .xml.

  1. Dynamiczny plik

Ostatnim ze sposobów jest stworzenie pliku za pomocą strony, której ten plik dotyczy. Możesz go wygenerować automatycznie z poziomu systemu CMS. Dodatkowo przy aktualizacji, nie musisz pamiętać o jego edycji. Jeśli wyłączysz indeksowanie jakiejś podstrony, to Twój system może automatycznie dodać regułę do pliku robots.txt.

Podsumowanie

Plik robots.txt ma wielkie znaczenie przy strategii indeksowania, zwłaszcza przy stronach rozbudowanych, mających wiele adresów URL. Jeśli nie chcesz, aby roboty Google indeksowały strony, które posiadają niską wartość treści, stwórz taki plik. Pamiętaj, żeby wszystkie elementy pliku były dobrze zaplanowane, a pomoże to zapanować nad robotami Google i działania SEO będą skuteczniejsze.