robots.txt

SEO ed i segreti del robots.txt – guida al suo corretto uso

7 Gennaio 2012

robots.txt

In questo articolo inserirò, in ordine sparso e con successivi aggiornamenti, dei piccoli consigli su come utilizzare al meglio il file robots.txt, al fine di indicizzare correttamente un sito web.

Se una richiesta specifica verrà fatta attraverso un commento, la risposta verrà inserita come risorsa aggiuntiva all’interno dell’articolo.

robots.txt – risorse utili:

1) Inserendo nel robots il codice

User-agent: *
Disallow: /

può essere utile sapere che nemmeno la sitemap del sito sarà accessibile ai motori di ricerca, fino a quando essi non effettueranno un aggiornamento del robots.txt

2) Un motore di ricerca, se specificato, non segue le regole impostate per tutti, ma solo quelle specificate per esso

3) Per impedire l’indicizzazione dei file con una deteminata estensione in una determinata directory la sintassi corretta è:

Disallow: /directory/*.estensione

4) Il comando Allow è supportato da Google

5) Per impedire l’indicizzazione di tutti gli url contenenti la specifica chiave del tipo

www.dominio.com/directory/subdirectory/chiave/subdirectory/

la sintassi corretta è:

Disallow: /*/chiave/

6) Per impedire l’indicizzazione di tutte le pagine contenenti nell’url la specifica chiave del tipo

www.dominio.com/1chiave.estensione
www.dominio.com/2chiave.estensione
www.dominio.com/chiave3.estensione

la sintassi corretta è:

Disallow: /*chiave

7) Per impedire l’indicizzazione di tutti le directory contenenti nell’url la specifica chiave del tipo

www.dominio.com/1chiave1/
www.dominio.com/2chiave2/
www.dominio.com/chiave3/

la sintassi corretta è:

Disallow: /*chiave*/

8 ) Se si vuole bloccare una pagina senza bloccare la stessa con paramentri e variabili la sinstassi corretta è:

Disallow: /directory/file.estensione$

Il dollaro finale (fine riga) indica solo quel file e non comprende le sue variazioni tipo file.estensione?var o file.estensione?page=1 .

9) Per impedire l’indicizzazione di tutti gli  url che contengolo parametri in get la sintassi corretta è:

Disallow: /*?*

10) Curiosità: non è possibile bloccare agli spider l’accesso al file robots.txt tramite il file robots.txt
Pur inserendo la riga

Disallow: /robots.txt

Gli spider continueranno ad essere autorizzati ad accedere al file.

No Comments

Leave a Reply