Do czego służy plik robots.txt?

Czym jest robots.txt?

Plik robots.txt jest jednym z mechanizmów Robots Exclusion Protocol, który został stworzony w celu informowania automatów (botów) o tym, czego nie powinny robić na stronie WWW. Przykładowo, nie wszyscy właściciele stron WWW chcą, aby ich projekt WWW był widoczny w wynikach wyszukiwania (np. w wyszukiwarce Google). Plik robots.txt powinien zostać umieszczony w katalogu, do którego została przekierowana domena internetowa (jest to tzw. katalog główny domeny).

Jak działa plik robots.txt?

Do procesu wyszukiwania nowych materiałów w sieci Internet wykorzystywane są tak zwane roboty (boty), które podążają za hiperłączami (linkami) i indeksują całą zawartość danej strony WWW do katalogu wyszukiwarki. Robota indeksującego można określić jako część wyszukiwarki internetowej (np. Google), która przegląda i analizuje strony WWW, by następnie dodać o nich informacje do bazy wyszukiwarki.
WAŻNE! Plik robots.txt ogranicza dostęp do Twojej strony WWW robotom wyszukiwarek, które przeszukują Internet. Dla przykładu, możesz zabronić indeksowanie całej lub tylko wybranej części Twojej strony WWW!
Wspomniane roboty (np. roboty Google) po odwiedzeniu wybranej strony WWW analizują jej strukturę oraz treść i następnie na podstawie tajemnego algorytmu umieszczają wybraną stronę WWW w wynikach wyszukiwania na odpowiedniej pozycji.
Po utworzeniu odpowiedniego pliku robots.txt i opublikowaniu go na serwerze wszystkie zasady, które zostały w nim zdefiniowane będą natychmiast aktywne. Pamiętaj, że plik robots.txt można utworzyć w najprostszym edytorze tekstowym.
WAŻNE! Plik robots.txt jedynie informuje o odpowiednim zachowaniu, nie wymusza go zaś w żaden sposób. Wszystkie uznane roboty (np. roboty popularnych wyszukiwarek internetowych) będą przestrzegać zasad zawartych w pliku “robots.txt”, jednak niektóre roboty mogę je zignorować.

Ignorowanie zapisów zawartych w pliku “robots.txt” jest możliwe, ponieważ nie można narzucić bezwarunkowego przestrzegania zasad zawartych w pliku “robots.txt”, w związku z czym niektórzy spamerzy i inni oszuści mogą go zignorować. W tym przypadku zalecamy używanie hasła do ochrony poufnych informacji, np. za pomocą pliku .htaccess (funkcja ukrytego katalogu).

Przykłady zawartości dla plików robots.txt

Cała strona WWW będzie indeksowana przez roboty (tak jakby nie było pliku “robots.txt”):

User-agent: *
Allow:

Cała strona WWW nie będzie indeksowana:

User-agent: *
Disallow: /

Indeksowane nie będą tylko foldery “/images” i “/private”:

User-agent: *
Disallow: /images/
Disallow: /private/

Indeksowany nie będzie tylko plik “file.html” w katalogu “/directory”:

User-agent: *
Disallow: /directory/file.html

O czym należy pamiętać podczas korzystania z pliku robots.txt?

  • Roboty, które są odpowiedzialne za skanowanie w poszukiwaniu dziur w zabezpieczeniach stron WWW mogą ignorować zapisy z pliku. Podobnie zachowują się automaty, które gromadzą adresy email i inne dane teleadresowe.
  • Pamiętaj, że zawartość pliku jest publicznie dostępna, a plik robots.txt nie jest metodą zabezpieczenia dostępu do zasobów.
  • Niektóre roboty mogą zbyt szybko pobierać strony WWW do ich sprawdzenia, co może znacząco obciążyć serwer. W tym przypadku zalecane jest zablokowanie user agent takich robotów lub ich adresów IP.
  • Pamiętaj, że wyszukiwarka Google nie będzie pobierać ani indeksować zawartości stron WWW, które zostały zablokowane w pliku robots.txt, ale może indeksować te adresy URL, jeśli zostaną znalezione na innych stronach WWW w sieci Internet. W związku z tym adres URL takiej strony WWW oraz prawdopodobnie inne powszechnie dostępne informacje, np. teksty kotwicy mogą zostać wyświetlone w wynikach wyszukiwania.
  • Plik robots.txt jest potrzebny tylko w przypadku, gdy witryna zawiera treść, którą chcesz ukryć przed wyszukiwarkami internetowymi (np. Google). Jeśli wyszukiwarki mają indeksować całą stronę WWW, to plik robots.txt jest całkowicie zbędny!