Il file robots.txt (dicitura breve per: protocollo di esclusione robot) è un contenitore di istruzioni che indica ai crawler dei motori di ricerca quali pagine e contenuti possono essere soggetti a scansione, e quali invece no.
Indice
Che cos’è il file robots.txt?
Il file robots.txt in pratica è un file di testo di piccole dimensioni conforme al protocollo di esclusione robot, composto da una o più regole che bloccano, o consentono, l’accesso di certi tipi di crawler al percorso dei file specificati in questione.
A dispetto delle ridotte dimensioni, questo file può rivelarsi un utile strumento per precludere l’indicizzazione di certi elementi, se ciò è contraria ai nostri scopi, e permetterci così di sfruttare un sito web al massimo delle sue potenzialità.
Questo file si trova nella directory principale del sito (root), pertanto di solito ha un percorso del tipo www.sito.com/robots.txt. Esso viene letto direttamente dai crawler, che ne traggono informazioni su come eseguire la scansione di determinate cartelle o risorse.
Il file robots.txt ha una sintassi di questo tipo:
- # Regola 1
User-agent: Googlebot
Disallow: /nogooglebot/
In questo caso, il crawler Googlebot è esentato dalla scansione della cartella http://sito.com/nogooglebot/ e di eventuali sottodirectory. Gli altri crawler invece sono abilitati a entrare.#
- #Regola 2
User-agent: *
Allow: /
In questo caso, a tutti i crawler è concesso di scansionare l’intero sito.
Il robots.txt può essere composto da più regole, dove ogni regola è a propria voltacomposta da diverse istruzioni (una per riga).
Ogni file è composto da un blocco di regole, ognuno dei quali inizia con la formula User.agent che introduce l’applicazione delle istruzioni.
Per esempio, potrebbe essere costituito in questa maniera:
# Impedisci a Googlebot di accedere a sito.com/directoryA/… e a sito.com/directoryB/…
# ma consenti l’accesso a directoryB/subdirectoryA/…
# Tutte le altre directory sul sito sono consentite per impostazione predefinita.
User-agent: googlebot
Disallow: /directoryA/
Disallow: /directoryB/
Allow: /directoryB/subdirectoryA/
A che cosa serve il file robots.txt?
Il file robots.txt permette ai crawler di concentrarsi sui soli contenuti che devono effettivamente essere scansionati, in modo da evitare di sovraccaricare di richieste il sito.
Il robots.txt serve a regolare il traffico in entrata in un sito web, e a precludere la scansione a determinati elementi indicati espressamente.
Puoi utilizzare il file robots.txt per:
- gestire il traffico di scansione
- impedire la visualizzazione di file immagini, video e audio, di particolari tipi di file (.gif)
- inibire la scansione di file immagini, script o file poco importanti
- consentire l’accesso a uno o a più crawler, ed negare l’accesso uno o più crawler
Che cosa non devi fare con il file robots.txt?
Il file robots.txt non deve essere utilizzato per escludere una pagina dalla scansione.
Se vuoi evitare che Google indicizzi particolari pagine (ad esempio privacy policy o testi non ancora completi) puoi ricorrere invece alle istruzioni noindex oppure proteggere la pagina con password. Il plugin Yoast, ad esempio, è uno degli strumenti più comunemente utilizzati per mettere in noindex le pagine da sottrarre alla scansione.
Una pagina web bloccata dal file .txt può comunque essere scansionata dai motori di ricerca, ma il risultato sarà che la pagina non avrà una descrizione come quelle normali.
Come creare un file robots.txt
Un file robots.txt è un semplice documento di testo, ma molto importante perché permette di comunicare bene con i motori di ricerca come Google, Bing, Yahoo ecc.
Siccome non contiene altro che caratteri di testo, può essere realizzato con un semplice editor testuale. L’editor però deve essere in grado di produrre caratteri ASCII o UTF-8 standard (non sono consentite altre codifiche): questo significa che gli elaboratori di testo potrebbero soppiantare questi dati salvando il file in formato proprietario e alterando il risultato finale, perciò bisogna stare molto attenti a come esso viene salvato.
Qui trovi un elenco di tutte le specifiche per la creazione di un file robots.txt.
La sintassi da seguire è molto semplice, poiché deve essere intuitivo e immediatamente comprensibile per i crawler. Essa contiene sempre:
User-Agent: *
Disallow:
User-Agent indica lo spider al quale queste istruzioni sono indirizzate: la precisazione di * indica che le istruzioni da eseguire sono rivolte a tutti gli spider. La quasi totalità dei file presenta un’indicazione come quella sopra riportata.
Una scrittura del tipo:
User-agent: SpiderNO
Disallow:
impedisce soltanto al crawler SpiderNO di eseguire la scansione.
Disallow che cosa vuol dire?
Il termine Disallow è un’istruzione che proibisce ai crawler di effettuare la scansione, e può concretizzarsi in un comando del tipo
Disallow: /cartella_privata/
per non rendere indicizzata questa cartella e i file in essa contenuti.
Se vuoi sottrarre un solo file (e non una cartella) alla scansione imposta un comando del tipo
Disallow: /directorydiesempio/filediesempio.html
Ovviamente, c’è anche la versione “generalista”:
User-agent: *
Disallow: /
che blocca l’accesso di tutti i crawler a tutte le cartelle. Ovviamente, se usato a sproposito, questo comando può precludere l’indicizzazione di tutto il sito e affossare il tuo posizionamento, perciò occhio!
Se vogliamo, al contrario, concedere agli spider di scansionare una specifica cartella dobbiamo usare una dicitura del tipo
Allow: /directorydiesempio/
per consentire la scansione di tutti i file in essa contenuti.
Tieni presente che il file distingue le lettere maiuscole dalle minuscole, perciò devi riportare sempre la dicitura corretta, e fai attenzione a non salvare per errore due file robots.txt (siccome i crawler possono leggere soltanto quello di riferimento).
Un file del genere può essere scritto con un programma semplicissimo come il classico blocco note.
Ricordati di rispettare alcune semplici regole:
- il nome del file deve essere sempre e comunque robots.txt (se lo rinomini in maniera differente i motori di ricerca non riusciranno a trovarlo e non potranno eseguirne le direttive)
- non può esserci più di un solo file per ogni sito
- il file deve essere collocato nella directory principale del sito (non in una sottodirectory)
- anche i sottodomini possono ospitare i rispettivi robots.txt
Come verificare se il tuo file robots.txt è riuscito perfettamente?
Grazie alla Search Console (voce Scansione -> Tester del file robots.txt) puoi controllare con facilità se il file funziona correttamente, in quanto questa funzione nativa della piattaforma ti segnala errori e ti fa notare eventuali blocchi rispetto agli spider che hai scelto.
Se hai bisogno di generare un file robots.txt in base alle tue esigenze , Contattaci oggi stesso!