Come verificare Googlebot e gli spider dei motori di ricerca


Introduzione

Vogliamo tutti che Google visiti il ​​nostro sito il ​​più spesso possibile. In questo modo, Google indicizza i contenuti nuovi e può condividerli immediatamente con chiunque effettui ricerche online. Google utilizza un crawler chiamato “Googlebot” che esegue la scansione di milioni di pagine web contemporaneamente e indicizza il loro contenuto nei database di Google.

Più Googlebot visita il tuo sito, più velocemente gli aggiornamenti dei contenuti verranno visualizzati nei risultati di ricerca di Google. Di conseguenza, è della massima importanza consentire a Googlebot di eseguire la scansione del tuo sito web senza bloccarlo o disturbarlo. In effetti, spesso si tende a dare a Googlebot un trattamento da vero VIP.

Il problema? Gli hacker che si mascherano da Googlebot per causare danni. In un recente studio su 1000 siti web si è scoperto che il 16,3% dei siti subisce attacchi di tipo Googlebot Impersonation di qualche tipo, ovvero attacchi fatti con user-agent Googlebot ma non provenienti dal reale Googlebot. Questi attacchi tendono ad inserire spam nei commenti oppure fanno scraping dei contenuti

Per questa e diverse altre ragioni potresti voler identificare Googlebot, un altro esempio potrebbe essere per fornirgli una versione pre-renderizzata del tuo sito basato su JavaScript. Per farlo devi essere in grado di rilevare se una richiesta è fatta da un utente o un bot, e soprattutto devi sapere se il bot si sta presentando con il suo vero nome oppure se ti sta ingannando.

Indice

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo di WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione /  Modifica )

Google photo

Stai commentando usando il tuo account Google. Chiudi sessione /  Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione /  Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione /  Modifica )

Connessione a %s...

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.