Categories
tecnologia webdev

GoogleBot, DreamHost e WordPress

Le pagine analizzate ogni giorno da GoogleBot

Questo trittico di pezzi da novanta per dire che GoogleBot sta diventando sempre più aggressivo, il 90% delle template di WordPress permette di fare browsing, indicizzazione e navigazione anche di pagine di archivio con contenuti duplicati (archivi, categorie, tag, ricerche, etc) e DreamHost non apprezza particolarmente di avere degli shared hosting messi al tappeto dalla combinazione dei primi due.

Pertanto oggi mi sono visto recapitare un’email dove mi si avvertiva che solo mio account (dove risiedono oltre a questo blog, un altro paio di siti che superano le 4000 pageview/giornaliere) occupava circa il 10% della CPU del server, a causa dei continui ed incessanti accessi dei bot di Google, MSN e Yahoo! su tutte le pagine, e che pertanto gli ip di tali bot venivano bloccati tramite .htaccess.

Per risolvere il problema ho quindi aggiornato i file robots.txt di tutti i domini (qui potete scaricare il mio ottimizzato per WordPress) aggiungendo alcune direttive per indicizzare solo le pagine, senza passare da tutti gli archivi.

Inoltre sto pensando di aggiornare il template in modo che in base al tipo di contenuto servito aggiunga un adeguato <meta name="robots" content="" />

E voi che fate? Lasciate i bot aggressivi navigare in tutto il sito? Perchè?

Intanto vi lascio un link ad un articolo di askApache su come ottimizzare il file robots.txt per WordPress.

cuiaz