Guida completa a Googlebot: come funziona e cosa analizza
Il Googlebot è uno degli elementi fondamentali per valorizzare il web marketing. Protagonista di ogni attività svolta sul proprio sito, effettua un lavoro di crawling per scoprire, scansionare e indicizzare le pagine web.
Scopriamo insieme al meglio di cosa si tratta.
Che cos’è e come funziona
- eseguire la scansione del Web per trovare nuove pagine;
- indicizzarle per capire di cosa trattano;
- classificare in base ai dati recuperati.
Che cos’è il crawler
- eseguire il rendering della pagina in un browser;
- caricare l’HTML, il codice di terze parti, JavaScript e CSS;
- memorizzare le informazioni nel database;
- utilizzare per indicizzare e classificare la pagina.
Tempistiche di Googlebot
Googlebot è stato progettato per essere eseguito contemporaneamente da più computer. E lo scopo è quello di migliorare il rendimento e seguire il ritmo di crescita del Web. Di solito le sue tempistiche di accesso avvengono non più di una volta ogni pochi secondi. In alcuni casi e per brevi periodi, tale frequenza potrebbe risultare leggermente superiore. Inoltre, esegue molte scansioni su computer vicini fisicamente ai siti che potrebbero essere sottoposti a scansione.
Di conseguenza i log potrebbero registrare visite di Google da diversi computer, tutte con lo user-agent Googlebot, ma con IP differenti. Di solito l’IP di Googlebot presenta la seguente classe c: 66.249.
L’obiettivo di Googlebot è prelevare il maggior numero di pagine di un sito evitando di sovraccaricare il web server. Se il server è lento e non riesce a stare al passo con le richieste di scansione di Google, è possibile limitare la frequenza di scansione massima. E lo si fa attraverso le impostazioni sito di Google Search Console.
A volte gli indirizzi IP utilizzati cambiano, e di conseguenza si presenta un maggior numero di richieste con lo stesso user agent da diversi IP. Il pericolo è quindi quello di spoofing. Si tratta di un attacco informatico che impiega in varie maniere la falsificazione dell’identità.
Googlebot: come impedire la visita al proprio sito
- file robots.txt: ha il compito di regolare il crawling delle risorse di un sito indicando agli spider quali sezioni devono scansionare o meno;
- intestazione http X-Robots-Tag: percepita prima dagli spider rispetto al meta robots;
- file del server web protetti da password.
- eseguire la scansione di una pagina;
- indicizzare una pagina;
- l’accesso completo a una pagina sia ai crawler sia agli utenti.
- navigare tra le diverse configurazioni;
- notare i tempi di inattività e le restrizioni;
- raccogliere i dati di cui Google ha bisogno per il funzionamento del suo motore di ricerca.