Guida completa a Googlebot: come funziona e cosa analizza

Sara Elia
15 Ottobre 2023
Digital marketing
4 minuti
16 Ottobre 2023

Guida completa a Googlebot: come funziona e cosa analizza

Il Googlebot è uno degli elementi fondamentali per valorizzare il web marketing. Protagonista di ogni attività svolta sul proprio sito, effettua un lavoro di crawling per scoprire, scansionare e indicizzare le pagine web.

Scopriamo insieme al meglio di cosa si tratta.

Diventa SEO Specialist

Scopri il corso con certificazione MIUR

Scopri di più

Che cos’è e come funziona

Googlebot identifica due diversi tipi di crawler di Google. Il primo è un crawler desktop che simula un utente da dispositivo desktop. Lo stesso si occupa di accedere ai contenuti web in modalità desktop-browser. Il secondo invece è un crawler mobile che simula un utente da dispositivo mobile. Si occupa di effettuare il crawling dei contenuti destinati agli utenti mobile.

Entrambi i crawler rispettano lo stesso token di prodotto, detto dello user-agent nel file robots.txt. Non è quindi possibile scegliere selettivamente come target Googlebot Smartphone o Desktop tramite questo file.

Se si ha un sito convertito con priorità ai contenuti per dispositivi mobili su Google, il più delle scansioni viene fatta con Googlebot Smartphone. Un’altra minima parte continua comunque ad essere svolta con il crawler desktop. Per i siti che invece non sono stati ancora convertiti, la maggior parte delle scansioni continua ad essere svolta attraverso il crawler desktop.

In entrambi i casi, il crawler di minoranza effettua la scansione dei soli URL già sottoposti a scansione dal crawler di maggioranza.

In altre parole, quello che fa Google è:

eseguire la scansione del Web per trovare nuove pagine;
indicizzarle per capire di cosa trattano;
classificare in base ai dati recuperati.

Che cos’è il crawler

Il crawler è un software utilizzato da Google e da altri motori di ricerca per recuperare i dati dal web. A volte per indicarlo vengono utilizzati altri nomi, come searchbot o spider.

Googlebot è uno dei crawler di Google che scansiona il Web da un sito all’altro alla ricerca di contenuti nuovi. Il motore di ricerca non li possiede ancora nei suoi database.

Attenzione: ogni motore di ricerca possiede il proprio set di searchbot. Google ad esempio ne ha 15 tipi diversi, tra cui il principale è proprio Googlebot.

Googlebot esegue sia la scansione che l’indicizzazione. Il suo funzionamento è molto semplice. Tutti i motori di ricerca, compreso Google, non hanno un registro centrale di URL che si aggiorna ogni volta che viene creata una nuova pagina. Ciò significa che Google non viene avvisato automaticamente sulle nuove pagine. Deve trovarle da solo sul Web.

Googlebot gira costantemente in rete in cerca di nuove pagine, aggiungendole al database delle pagine già presenti.

Ogni volta che trova una nuova pagina deve:

eseguire il rendering della pagina in un browser;
caricare l’HTML, il codice di terze parti, JavaScript e CSS;
memorizzare le informazioni nel database;
utilizzare per indicizzare e classificare la pagina.

Tempistiche di Googlebot

Googlebot è stato progettato per essere eseguito contemporaneamente da più computer. E lo scopo è quello di migliorare il rendimento e seguire il ritmo di crescita del Web. Di solito le sue tempistiche di accesso avvengono non più di una volta ogni pochi secondi. In alcuni casi e per brevi periodi, tale frequenza potrebbe risultare leggermente superiore. Inoltre, esegue molte scansioni su computer vicini fisicamente ai siti che potrebbero essere sottoposti a scansione.

Di conseguenza i log potrebbero registrare visite di Google da diversi computer, tutte con lo user-agent Googlebot, ma con IP differenti. Di solito l’IP di Googlebot presenta la seguente classe c: 66.249.

L’obiettivo di Googlebot è prelevare il maggior numero di pagine di un sito evitando di sovraccaricare il web server. Se il server è lento e non riesce a stare al passo con le richieste di scansione di Google, è possibile limitare la frequenza di scansione massima. E lo si fa attraverso le impostazioni sito di Google Search Console.

A volte gli indirizzi IP utilizzati cambiano, e di conseguenza si presenta un maggior numero di richieste con lo stesso user agent da diversi IP. Il pericolo è quindi quello di spoofing. Si tratta di un attacco informatico che impiega in varie maniere la falsificazione dell’identità.

Googlebot: come impedire la visita al proprio sito

Tenere segreto a Googlebot un server web è un’operazione molto complicata.

Quando un utente segue un link che rimanda a un altro server, l’URL nascosto potrebbe essere visualizzato. Ma non solo! Potrebbe anche venire memorizzato e pubblicato nel file log dall’altro server. Inoltre sul Web esistono molti link obsoleti e inaccessibili.

Per impedire di eseguire la scansione dei contenuti del proprio sito, sono utilizzabili le seguenti opzioni:

file robots.txt: ha il compito di regolare il crawling delle risorse di un sito indicando agli spider quali sezioni devono scansionare o meno;
intestazione http X-Robots-Tag: percepita prima dagli spider rispetto al meta robots;
file del server web protetti da password.

Infine, è molto importante tenere a mente la differenza tra impedire di:

eseguire la scansione di una pagina;
indicizzare una pagina;
l’accesso completo a una pagina sia ai crawler sia agli utenti.

Queste tre azioni sono infatti estremamente differenti e provocano risultati del tutto diversi. Ove non gestite correttamente possono provocare gravi danni al traffico organico del sito.

Come tutti sappiamo il mondo web è immenso e disordinato. Googlebot deve:

navigare tra le diverse configurazioni;
notare i tempi di inattività e le restrizioni;
raccogliere i dati di cui Google ha bisogno per il funzionamento del suo motore di ricerca.

Acquisisci competenze spendibili nel mondo del lavoro

Social Media Manager

Diventa un esperto nella gestione dei Social

Iscriviti ora!

Inbound marketing

Segui il corso e contenuti di valore e converti

Iscriviti ora!