In un recente post su LinkedIn, Gary Illyes di Google ha sfatato una credenza consolidata riguardo alla posizione del file robots.txt.
Per anni si è pensato che questo file dovesse essere posizionato nella radice del dominio (ad esempio, example.com/robots.txt). Tuttavia, Illyes ha spiegato che non è un obbligo assoluto e ha svelato un aspetto meno famoso del Robots Exclusion Protocol (REP).
Flessibilità del file Robots.txt
Contrariamente alla credenza comune, il file robots.txt non deve per forza trovarsi nella radice del dominio. Secondo Illyes, è possibile avere due file robots.txt separati su domini diversi:
- uno sul sito principale;
- l’altro su una rete di distribuzione dei contenuti (CDN).
Ad esempio, un sito web potrebbe avere un file robots.txt su https://cdn.example.com/robots.txt e un altro su https://www.example.com/robots.txt.
Questo metodo permette di gestire centralmente il file robots.txt sulla CDN e di reindirizzare le richieste dal dominio principale a questo file centralizzato. I crawler conformi a RFC9309 seguiranno il reindirizzamento e utilizzeranno il file robots.txt della destinazione come riferimento per il dominio originale.
Che cos’è un file robots.txt?
Il file robots.txt è uno strumento importante per chi gestisce un sito web.
Serve a indicare ai crawler dei motori di ricerca quali URL possono essere visitati e quali no. Questo file è usato principalmente per evitare di sovraccaricare il sito con troppe richieste. Ovviamente, non è un mezzo per escludere una pagina web dai risultati di Google. Per fare ciò, bisogna utilizzare il meta tag noindex o proteggere la pagina con una password.
Utilizzo del file robots.txt con CMS
Se utilizzi un CMS come Wix o Blogger, potrebbe non essere necessario, o addirittura possibile, modificare direttamente il file robots.txt. Spesso questi sistemi offrono impostazioni specifiche per gestire la visibilità delle pagine nei motori di ricerca. Cerca le istruzioni appropriate nel tuo CMS.
Scopi principali del file robots.txt
Un file robots.txt viene utilizzato per due motivi principali: gestire il traffico dei crawler e escludere determinati file dai risultati di Google.
Ecco come funziona per diversi tipi di file:
Pagine web
Per le pagine web, il file robots.txt può gestire il traffico di scansione e impedire la scansione di pagine non importanti. Attenzione: non usare robots.txt per nascondere le tue pagine dai risultati di ricerca di Google. Anche se bloccata, una pagina potrebbe comunque apparire nei risultati di ricerca se altre pagine rimandano a essa tramite un link.
File multimediali
Puoi usare robots.txt per gestire la scansione di file immagine, video e audio. Questo impedirà che vengano visualizzati nei risultati di ricerca di Google, ma non impedisce ad altri utenti di linkare tali file.
File di risorse
Il file robots.txt può bloccare file di risorse non essenziali, come immagini, script o file di stile. Ricorda però una cosa. Se l’assenza di queste risorse compromette la comprensione della pagina da parte del crawler di Google, non bloccarle.
Comprendere i limiti del file robots.txt
Supporto variabile dai motori di ricerca
Non tutti i motori di ricerca rispettano le istruzioni di robots.txt. Googlebot e altri crawler affidabili lo fanno, ma alcuni potrebbero ignorarle. Per una protezione maggiore, utilizza metodi come la protezione tramite password.
Differenze di interpretazione
I crawler possono interpretare la sintassi del file robots.txt in modo diverso. È essenziale conoscere la sintassi corretta per ogni tipo di crawler per evitare problemi di interpretazione.
Indicizzazione di URL bloccati
Anche se un URL è bloccato da robots.txt, può comunque essere indicizzato se altri siti contengono link a esso. Per evitare l’indicizzazione, usa metodi come la protezione tramite password o il meta tag noindex.
30 anni di Robots.txt
Nel 2024 il Robots Exclusion Protocol compie 30 anni, e la spiegazione di Illyes dimostra come gli standard web siano in continua evoluzione. Egli suggerisce persino che il file potrebbe essere chiamato diversamente in futuro, indicando possibili cambiamenti nel modo in cui vengono gestite le direttive di scansione.
Seguire i consigli di Illyes può offrirti vari vantaggi:
- gestione centralizzata: consolidando le regole del file robots.txt in un’unica posizione, puoi facilmente gestire e aggiornare le direttive di scansione per tutto il tuo sito web.
- Maggiore coerenza: una fonte unica per le regole del file robots.txt riduce il rischio di conflitti tra il sito principale e la CDN.
- Flessibilità: questo approccio offre configurazioni più adattabili, particolarmente utili per siti con architetture complesse o che utilizzano più sottodomini e CDN.
Adottare una gestione semplificata del file robots.txt può migliorare la gestione del sito e ottimizzare la strategia SEO.
Per approfondire l’argomento puoi leggere anche: