Do czego służy plik robots.txt
Jak działa plik robots.txt?
Plik ma format zwykłego pliku tekstowego i zawiera przynajmniej jedną grupę reguł, która blokuje lub umożliwia dostęp określonego robota, do wskazanego zasobu. Brak pliku „robots.txt” oznacza, że zezwalamy na przeszukiwanie i indeksowanie wszystkich zasobów witryny.
Dlaczego ograniczmy dostęp robotom do zasobów?
Przeszukiwanie zasobów serwera przez roboty może znacząco obciążyć serwer. Pliku „robots.txt” używa się głównie po to, aby ograniczyć przeszukiwanie zasobów, wyłącznie do tych, które są istotne dla klienta. Przykładowo w witrynie mogą znajdować się tysiące plików w katalogu „/cache”, których przeszukiwanie i ewentualne indeksowanie przez roboty byłoby całkowicie pozbawione sensu.
Zasady korzystanie z pliku robots.txt
- Plik musi być plikiem tekstowym i nazywać się „robots.txt”.
- Witryna internetowa może posiadać tylko jeden plik „robots.txt”.
- Plik „robots.txt” musi znajdować się w katalogu głównym witryny internetowej.
- Roboty, mogą ignorować zapisy z pliku.
- Zawartość pliku jest publicznie dostępna, a plik „robots.txt” nie jest metodą zabezpieczenia dostępu do zasobów.
Reguły w pliku robots.txt
- Plik powinien zawierać co najmniej jedną grupę reguł.
- Grupa reguł rozpoczyna się od wiersza „User‐Agent”, który określa nazwę robota wyszukującego.
- Z założenia robot może przeszukiwać wszystkie zasoby, które nie są zablokowane przy pomocy reguły „disallow”.
- Wielkość liter ma znaczenie.
Przykładowa zawartość pliku robots.txt
Ograniczenie dostępu dla wszystkich robotów i wszystkich zasobów:
User‐Agent: *
Disallow: /
Ograniczenie dostępu dla wszystkich robotów do katalogów „/backup” i „/cache:
User‐Agent: *
Disallow: /backup/
Disallow: /cache/
Ograniczenie dostępu dla robota Googlebot do katalogu „nogoogle”:
User‐Agent: Googlebot
Disallow: /nogoogle/