Il file robots.txt è un file di testo che contiene dei comandi destinati ai crawler dei motori di ricerca per precisare loro le pagine che possono o meno indicizzare. In questo modo il motore di ricerca in questione inizia l'esplorazione di un sito web cercando il file robots.txt nel root del sito.
Il file robots.txt (scritto in minuscolo e al plurale) è un file ASCII che si trova nel root del sito e contiene i seguenti comandi:
User-Agent, precisa il robot interessato dalle direttive seguenti. Il valore * significa "tutti i motori di ricerca";
Disallow: indica le pagine da escludere dall'indicizzazione. Ogni pagina o percorso da escludere deve essere su una linea a parte e cominciare con /. Il valore / da solo significa "tutte le pagine del sito".
Nota Bene: il file robots.txt non deve contenere nessuna linea vuota.
Ecco un esempio di file robots.txt.
Esclusione di tutte le pagine:
User-Agent: * Disallow: /
Esclusione di nessuna pagina (equivalente all'assenza di file robots.txt, tutte le pagine sono visitate:
User-Agent: * Disallow:
Autorizzazione di un solo robot:
User-Agent: nomeDelRobot Disallow: User-Agent: * Disallow: /
Esclusione di un robot:
User-Agent: NomeDelRobot Disallow: / User-Agent: * Disallow:
Esclusione di una pagina:
User-Agent: * Disallow: /percorso/cartella/pagina.html
Esclusione di più pagine:
User-Agent: * Disallow: /percorso/cartella/pagina.html Disallow: /percorso/cartella/pagina2.html Disallow: /percorso/cartella/pagina3.html
Esclusione di tutte le pagine di una cartella e delle sue sotto cartelle:
User-Agent: * Disallow: /cartella/
Ecco qualche esempio di User-Agent per i motori di ricerca più noti:
Nome del motore | User-Agent |
---|---|
GoogleBot Mediapartners-Google Googlebot-Image Googlebot-Mobile Google Wireless Transcoder AdsBot-Google |
|
Bing | bingbot MsnBot |
Yahoo | Slurp |
Yandex | Yandex |
Cuil | Twikler |
Foto: © Pixabay.