Categories
tecnologia webdev

GoogleBot, DreamHost e WordPress

Le pagine analizzate ogni giorno da GoogleBot

Questo trittico di pezzi da novanta per dire che GoogleBot sta diventando sempre più aggressivo, il 90% delle template di WordPress permette di fare browsing, indicizzazione e navigazione anche di pagine di archivio con contenuti duplicati (archivi, categorie, tag, ricerche, etc) e DreamHost non apprezza particolarmente di avere degli shared hosting messi al tappeto dalla combinazione dei primi due.

Pertanto oggi mi sono visto recapitare un’email dove mi si avvertiva che solo mio account (dove risiedono oltre a questo blog, un altro paio di siti che superano le 4000 pageview/giornaliere) occupava circa il 10% della CPU del server, a causa dei continui ed incessanti accessi dei bot di Google, MSN e Yahoo! su tutte le pagine, e che pertanto gli ip di tali bot venivano bloccati tramite .htaccess.

Per risolvere il problema ho quindi aggiornato i file robots.txt di tutti i domini (qui potete scaricare il mio ottimizzato per WordPress) aggiungendo alcune direttive per indicizzare solo le pagine, senza passare da tutti gli archivi.

Inoltre sto pensando di aggiornare il template in modo che in base al tipo di contenuto servito aggiunga un adeguato <meta name="robots" content="" />

E voi che fate? Lasciate i bot aggressivi navigare in tutto il sito? Perchè?

Intanto vi lascio un link ad un articolo di askApache su come ottimizzare il file robots.txt per WordPress.

cuiaz

Categories
tecnologia

CrazyEgg

Se notate dei rallentamenti nella visualizzazione del blog è perchè sto provando il servizio di CrazyEgg per il monitoraggio delle vostre azioni sul blog.

Siccome il servizio gratuito permette solo un 5000 accessi unici/mese entro dopo domani dovrei togliere il tutto… :)

ciuaz

Categories
pensieri

SEO involontario

Su google sono al primo posto per la chiave di ricerca Lampadina, il prossimo tema per wordpress che confezionerò lo chiamerò “Illuminotecnica” e poi venderò la pagina a quelli di Artemide o di Flos… che magari ci scappa qualche applique per casa…

ciauz

Categories
tecnologia

Google in panne?!

Da quasi un ora non riesco ad accedere a nessun servizio di google! Voi?

ciuaz

Categories
tecnologia webdev

SEO e XML

Ho scoperto che esiste un nuovo linguaggio XML per descrivere un sito affinchè venga poi correttamente analizzato dai motori di ricerca, si chiama di ROR e sfrutta molto da vicino il principio di FOAF dove viene creata una rete dei contatti di contatti.

In realtà ROR è molto di più infatti al suo interno potrebbe comprendere non solo dati essenziali per l’indicizzazione di un sito, ma anche una lista di contatti, un feed, o qualsiasi altro si possa considerare “risorsa“.

Altro programmillo utile trovato oggi per quel che riguarda il SEO:”(SEO è l’acronimo di Search Engine Optimizing e indica tutte le tecniche di ottimizzazione dei siti affinchè vengano indicizzati meglio dai motori di ricerca)”: è GSiteCrawler. Questo tool freeware genera il file sitemap.xml, sfruttato da Google per l’indicizzazione del sito, automaticamente dopo aver analizzato una, o più, url.

ciuaz

Categories
tecnologia

Page Rank?

Misteriosamente ieri il pagerank del mio blog, dopo un’esploit di circa 2 ore a 6 (!), è passato a non aver più alcun valore… qualcuno sa spiegarmi il fatto?!

ciauz

Categories
tecnologia webdev

Pagine ottimizzate per i motori di ricerca

su submit-it è presente un interessante articolo su come ottimizzare le proprie pagine per farle indicizzare dai motori di ricerca.

ciuaz