sabato 28 febbraio 2009

Il file Robots.txt

Il file Robots.txt è utilizzato in tutti i siti Internet o Blog. È un file che permette a uno spider, ad esempio, quello di Google, di leggere il contenuto e di conseguenza, indicizzare soltanto le pagine, per le quali l’utente ha dato il pieno consenso, infatti, questo file, al suo interno contiene tutte quelle pagine o directory del sito Web, che non si voglio indicizzare su un motore di ricerca, ciò significa che queste pagine non compariranno mai quando una persona esegue una ricerca su un motore di ricerca.

Di solito in questo file si disabilitano all’indicizzazione tutti quei file che permettono l’amministrazione del sito Web.Un semplice esempio di file Robots.txt è quello che include il CMS Wordpress; che può contenere le seguenti informazioni:

User-agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/

Queste righe hanno un determinato significato:
• User-agent è il comando che indica a tutti gli spider che ci sono su Internet (infatti, vi è il carattere *) di seguire le istruzioni riportate di seguito. Di solito si consiglia di creare un solo file Robots;

• L’istruzione Disallow:/wp- indica ai motori di non fare il crawling dei files di Wordpress che di solito contengono il pannello di amministrazione. Il robot eviterà tutte le directory e sotto-directory che iniziano con “wp”.

I file di questo tipo sono semplici da creare, infatti, è sufficiente utilizzare il NotePad di Windows o qualche strumento simile tipo Notepad++. Per rendersi conto di qualche file un po’ più complesso è sufficiente eseguire una ricerca su Google, inserendo la stringa “Robots.txt”.

Anche se semplice da impostare un file di questo tipo, bisogna analizzare bene il sito per disabilitare tutte e sole le informazioni che devono rimanere nascoste.

Nessun commento:

Posta un commento

Lascia il tuo commento.....