Categories
tecnologia webdev

GoogleBot, DreamHost e WordPress

Le pagine analizzate ogni giorno da GoogleBot

Questo trittico di pezzi da novanta per dire che GoogleBot sta diventando sempre più aggressivo, il 90% delle template di WordPress permette di fare browsing, indicizzazione e navigazione anche di pagine di archivio con contenuti duplicati (archivi, categorie, tag, ricerche, etc) e DreamHost non apprezza particolarmente di avere degli shared hosting messi al tappeto dalla combinazione dei primi due.

Pertanto oggi mi sono visto recapitare un’email dove mi si avvertiva che solo mio account (dove risiedono oltre a questo blog, un altro paio di siti che superano le 4000 pageview/giornaliere) occupava circa il 10% della CPU del server, a causa dei continui ed incessanti accessi dei bot di Google, MSN e Yahoo! su tutte le pagine, e che pertanto gli ip di tali bot venivano bloccati tramite .htaccess.

Per risolvere il problema ho quindi aggiornato i file robots.txt di tutti i domini (qui potete scaricare il mio ottimizzato per WordPress) aggiungendo alcune direttive per indicizzare solo le pagine, senza passare da tutti gli archivi.

Inoltre sto pensando di aggiornare il template in modo che in base al tipo di contenuto servito aggiunga un adeguato <meta name="robots" content="" />

E voi che fate? Lasciate i bot aggressivi navigare in tutto il sito? Perchè?

Intanto vi lascio un link ad un articolo di askApache su come ottimizzare il file robots.txt per WordPress.

cuiaz

15 replies on “GoogleBot, DreamHost e WordPress”

Permettere di indicizzare pezzi di blog montati insieme con criteri diversi (categoria, tag, archivi mensili ecc ecc) non è un vantaggio?
Chi cerca con i motori di ricerca un insieme di parole è più probabile che trovi in alto nella lista dei risultati il blog che è indicizzato in quel modo no?

dipende.. se mi cerchi un post correlato a wordpress e finisci su questo blog preferirei finire su un post, e non nella categoria “php” dove magari il primo post è in 4a pagina ;)

Ma se quel singolo post è in posizione 458 nei risultati della ricerca e invece la categoria php, in quanto più ampia e più tematica, è in terza posizione come la mettiamo?
Era questo il mio dubbio.

Per NZ uso jpcache, e la copia in cache viene aggiornata ogni x secondi. Da quando l’ho attivata non ho più problemi di sovraccarico sulla CPU.

anch’io ho ricevuto la stessa email,
copio ed incollo il tuo codice nel file di testo robots.txt in wordpress?
E’ sufficiente fare solo questa operazione?
thx!

Il problema l’ha avuto anche uno dei nostri di Bzaar.net qualche mese fa, ha risolto semplicemente eliminando la visualizzazione delle categorie, che pare fosse estremamente pesante. :)

Hai provato con il Google Webmaster tools per far diminuire i passaggi di Googlebot sul sito? Non l’ho provato per un sito in wordpress, ma per un ecommerce con circa 18.000 pagine.
Ogni volta che Google scansionava metteva a terra il server. Con il webmaster tools gli ho fatto diminuire le scansioni e adesso va molto meglio.

Successivamente abbiamo anche scoperto che c’era un altro spider sconosciuto che faceva delle scansioni di massa molto più frequentemente di Google (3.5GB di traffico in 10 giorni) e se avvenivano contemporaneamente a Googlebot era un delirio: abbiamo dovuto bloccarlo :)

Come non detto. Ovvio che conosci il webmaster tools: non avevo fatto caso al diagramma inserito nel tuo post.

La stanchezza gioca brutti scherzi :)

Stesso problema, altro provider (americano) che mi ha anche minacciato.
Uso il tuo robot… ma non capisco cosa è

Allow: /*/200*/*/*/*/
Disallow: /*/200

mi illumini?
Ci possono essere dei problemi con il PR di Google?
ciao

@axell: praticamente dico che può leggere i post (che hanno struttura Y/m/d/nome-post) ma non gli archivi di mesi e giorni (ie se vai in 2007/11/ vedi tutti i post di novembre)

Nel pannello di DH c’è un tool per “autogenerare” (?) il robots.txt e limitare l’accesso dei robots.

Diversi sono quelli delli spammer, me ne accorsi durante l’uso di phpStats, che loggava gli UserAgent sconosciuti per poi decidere se metterli in blacklist. In effetti quella era una pratica comoda…

Si poi ovviamente dopo aver messo a posto il file robots.txt si può togliere la regola dal file .htaccess che impedisce al GoogleBot di visitare il sito bloccandone l’indirizzo IP.

Comunque strana la cosa. Devono aver cambiato qualcosa nell’algoritmo di funzionamento del GoogleBot perchè in diversi anni non era mai successa una cosa del genere.

Premetto l’ignoranza in materia, ma non esiste un metodo per dire a uno specifico spider che non è necessario passare su una determinata pagina xké nulla è cambiato? In pratica, aprire le porte a googlebot solo dove necessario in base ai soli cambiamenti del sito?

Comments are closed.