Techniczne SEO

Plik Robots.txt

Robots.txt to plik tekstowy, który ma za zadanie instruować roboty wyszukiwarek internetowych, które sekcje witryny mogą być przeszukiwane i indeksowane. Jest on elementem standardu znanego jako Robot Exclusion Protocol (REP).

Plik robots.txt służy do ograniczania dostępu do określonych sekcji witryny dla robotów indeksujących. Może to być użyteczne w przypadkach, gdy właściciel witryny nie chce, aby pewne strony były indeksowane przez wyszukiwarki, czy też w celu zapobiegania obciążeniu serwera przez boty.

Plik robots.txt powinien być umieszczony w głównym katalogu witryny, dostępny pod adresem https://example.com/robots.txt. Umieszczenie robots.txt w innym miejscu, np. w podkatalogu, sprawi że roboty wyszukiwarek nie będą w stanie go odczytać.

Składnia pliku robots.txt

Plik zawiera dyrektywy, które określają, który robot ma dostęp do których zasobów. Najczęściej używane dyrektywy to User-agent i Disallow.

Poniższy przykład blokuje dostęp do folderu /private/ dla wszystkich robotów.:

User-agent: *
Disallow: /private/

Zgodnie z oficjalnymi wytycznymi, plik robots.txt nie obsługuje wyrażeń regularnych. Można jednak używać znaku * jako wieloznacznego symbolu, oraz $ do oznaczenia końca URL.

Lokalizacja sitemapy XML

Plik robots.txt może również zawierać informacje o lokalizacji pliku Sitemap XML poprzez dyrektywę Sitemap. Na przykład:

Sitemap: https://example.com/sitemap.xml

Dyrektywa ta informuje roboty wyszukiwarki o lokalizacji pliku mapy strony, co może ułatwić proces indeksowania.

Przykładowy plik robots.txt

Poniższa zawartość pliku robots.txt zabrania wszystkim robotom wyszukiwarek dostępu do zawartości katalogu /uploads/ z wyjątkiem plików w formacie PDF. Kolejne instrukcje zabraniają robotowi wyszukiwarki Bing dostępu do całej strony oraz wskazują na lokalizację sitemapy XML.

User-agent: *
Disallow: /uploads/
Allow: /uploads/*.pdf$

User-agent: Bingbot
Disallow: /

Sitemap: https://example.com/sitemap.xml