Robots.txt to plik tekstowy, który ma za zadanie instruować roboty wyszukiwarek internetowych, które sekcje witryny mogą być przeszukiwane i indeksowane. Jest on elementem standardu znanego jako Robot Exclusion Protocol (REP).
Plik robots.txt służy do ograniczania dostępu do określonych sekcji witryny dla robotów indeksujących. Może to być użyteczne w przypadkach, gdy właściciel witryny nie chce, aby pewne strony były indeksowane przez wyszukiwarki, czy też w celu zapobiegania obciążeniu serwera przez boty.
Plik robots.txt powinien być umieszczony w głównym katalogu witryny, dostępny pod adresem https://example.com/robots.txt
. Umieszczenie robots.txt w innym miejscu, np. w podkatalogu, sprawi że roboty wyszukiwarek nie będą w stanie go odczytać.
Składnia pliku robots.txt
Plik zawiera dyrektywy, które określają, który robot ma dostęp do których zasobów. Najczęściej używane dyrektywy to User-agent
i Disallow
.
Poniższy przykład blokuje dostęp do folderu /private/
dla wszystkich robotów.:
User-agent: *
Disallow: /private/
Zgodnie z oficjalnymi wytycznymi, plik robots.txt nie obsługuje wyrażeń regularnych. Można jednak używać znaku *
jako wieloznacznego symbolu, oraz $
do oznaczenia końca URL.
Lokalizacja sitemapy XML
Plik robots.txt może również zawierać informacje o lokalizacji pliku Sitemap XML poprzez dyrektywę Sitemap
. Na przykład:
Sitemap: https://example.com/sitemap.xml
Dyrektywa ta informuje roboty wyszukiwarki o lokalizacji pliku mapy strony, co może ułatwić proces indeksowania.
Przykładowy plik robots.txt
Poniższa zawartość pliku robots.txt zabrania wszystkim robotom wyszukiwarek dostępu do zawartości katalogu /uploads/
z wyjątkiem plików w formacie PDF. Kolejne instrukcje zabraniają robotowi wyszukiwarki Bing dostępu do całej strony oraz wskazują na lokalizację sitemapy XML.
User-agent: *
Disallow: /uploads/
Allow: /uploads/*.pdf$
User-agent: Bingbot
Disallow: /
Sitemap: https://example.com/sitemap.xml