Un file di testo robot, o file robots.txt (spesso erroneamente indicato come file robot.txt) è un must have per ogni sito web. Aggiungere un file robots.txt alla cartella principale del vostro sito è un processo molto semplice, e avere questo file è in realtà un “segno di qualità” per i motori di ricerca. Vediamo le opzioni robots.txt disponibili per il tuo sito.
Indice
Che cos’è un file di testo robot?
Un robots.txt è semplicemente un file ASCII o file di testo che dice ai motori di ricerca dove non sono autorizzati ad andare su un sito – noto anche come Standard for Robot Exclusion. Tutti i file o le cartelle elencate in questo documento non saranno scansionati e indicizzati dagli spider dei motori di ricerca. Avere un robots.txt, anche vuoto, mostra che i motori di ricerca sono ammessi sul vostro sito e che possono avere libero accesso ad esso. Si consiglia di aggiungere un file di testo dei robot al tuo dominio principale e a tutti i sottodomini del tuo sito.
Opzioni Robots.txt per la formattazione
Scrivere un robots.txt è un processo facile. Seguire questi semplici passi:
- Apri Notepad, Microsoft Word o qualsiasi editor di testo e salvare il file come ‘robot’, tutto in minuscolo, facendo attenzione a scegliere .txt come estensione del tipo di file (in Word, scegliere ‘Testo normale’ ).
- Aggiungi le seguenti due righe di testo al tuo file:
User-agent: *
Disallow:
User-agent è un’altra parola per i spider dei motori di ricerca. L’asterisco (*) indica che questa riga si applica a tutti i spider. Qui, non c’è nessun file o cartella elencata nella linea Disallow, il che implica che ogni directory del tuo sito può essere accessibile. Questo è un file di testo di base dei robot.
Bloccare gli spider dei motori di ricerca da tutto il tuo sito
Per fare questo, aggiungete queste due righe al file:
User-agent: *
Disallow: /
Se vuoi bloccare i spider da alcune aree del tuo sito, il tuo robots.txt potrebbe avere un aspetto simile a questo:
User-agente: *
Disallow: /database /database/
Disallow: /scripts/
Le tre righe di cui sopra dicono a tutti i spider che non sono autorizzati ad accedere a nulla nel database e nelle directory o sottodirectory degli script. Tenete presente che solo un file o una cartella può essere utilizzata per ogni riga di Disallow. Si possono aggiungere tutte le linee di Disallow di cui si ha bisogno.
Assicurati di aggiungere all’interno del file di sitemap XML il file di testo dei robot. Questo assicurerà che gli spider possano trovare la tua sitemap e indicizzare facilmente tutte le pagine del tuo sito.
Usa questa sintassi:
Sitemap: http://www.miosito.it/sitemap.xml
Una volta completato, salvare e caricare il file robots.txt nella directory principale del sito.
Ad esempio, se il tuo dominio è www.miosito.it, il file verrà posizionato su www.miosito.it/robots.txt.
Una volta che il file è a posto, controllare il file robots.txt per eventuali errori.