Robots.txt

Maggio 2015

Presentazione del file robots.txt

Il file robots.txt è un file di testo che contiene dei comandi destinati ai crawler dei motori di ricerca per precisare loro le pagine che possono o meno indicizzare. Così ogni motore di ricerca comincia l'esplorazione di un sito web cercando il file robots.txt nel root del sito.

Formato del file robots.txt

Il file robots.txt (scritto in minuscolo e al plurale) è un file ASCII che si trova nel root del sito e contiene i seguenti comandi:

  • User-Agent: precisa il robot interessato dalle direttive seguenti. Il valore * significa "tutti i motori di ricerca".
  • Disallow: indica le pagine da escludere dall'indicizzazione. Ogni pagina o percorso da escludere deve essere su una linea a parte e cominciare con /. Il valore / da solo significa "tutte le pagine del sito".



Il file robots.txt non deve contenere nessuna linea vuota!


Ecco un esempio di file robots.txt:

  • Esclusione di tutte le pagine :

User-Agent: *
Disallow: /
  • Esclusione di nessuna pagina (equivalente all'assenza di file robots.txt, tutte le pagine sono visitate:

User-Agent: *
Disallow: 
  • Autorizzazione di un solo robot:

User-Agent: nomeDelRobot
Disallow:
User-Agent: *
Disallow: /
  • Esclusione di un robot:

User-Agent: NomeDelRobot
Disallow: /
User-Agent: *
Disallow:
  • Esclusione di una pagina:

User-Agent: *
Disallow: /percorso/cartella/pagina.html
  • Esclusione di più pagine:

User-Agent: *
Disallow: /percorso/cartella/pagina.html
Disallow: /percorso/cartella/pagina2.html
Disallow: /percorso/cartella/pagina3.html
  • Esclusione di tutte le pagine di una cartella e delle sue sotto cartelle:

User-Agent: *
Disallow: /cartella/

Alcuni User-Agent

Ecco qualche esempio di User-Agent per i motori di ricerca più noti:



Nome del motoreUser-Agent
GoogleGoogleBot
Mediapartners-Google
Googlebot-Image
Googlebot-Mobile
Google Wireless Transcoder
AdsBot-Google
Bingbingbot
MsnBot
YahooSlurp
YandexYandex
CuilTwikler

Per ulteriori informazioni

robotstxt.org
Per poter consultare questo documento offline, ne potete scaricare gratuitamente una versione in formato PDF:
Robots-txt .pdf

Vedi anche


Robots.txt
Robots.txt
Robots.txt
Robots.txt
Robots.txt
Robots.txt
Robots.txt
Robots.txt
Robots.txt
Robots.txt
Il documento intitolato « Robots.txt » da CCM (it.ccm.net) è reso disponibile sotto i termini della licenza Creative Commons. È possibile copiare, modificare delle copie di questa pagina, nelle condizioni previste dalla licenza, finché questa nota appaia chiaramente.