2011-08-01 3 views
1

J'ai une page qui compte combien de fois est visité par un utilisateur (enregistré, invité, tout type d'utilisateurs ...). Donc, je mets à jour un champ sur la base de données chaque fois que la page est affichée; oui, aussi si la page est rafraichie rapidement, mais cela ne me dérange pas.Comment faire pour ignorer les robots d'indexation?

Bien sûr, lorsque certains robots/robots explorent mon site Web, ils incrémentent cette valeur, et je vais m'en débarrasser. Donc, y a-t-il une liste d'adresses IP à ignorer? Ou un mécanisme qui peut m'aider à le faire?

+4

avez-vous déjà entendu parler de robots.txt? – Kumar

+2

@Kumar c'est un bon point de départ (comme je le mentionne dans ma réponse) mais les robots/bots PITA sont ceux qui ignorent généralement robots.txt – marto

+0

@marto Que voulez-vous dire par les robots PITA – Pacerier

Répondre

1

Les adresses IP peuvent changer, ce n'est donc pas la meilleure façon de détecter si un visiteur est un bot. Au lieu de cela, je suggère de regarder la chaîne user-agent dans les paramètres de requête HTTP.

Voici une liste des chaînes d'agent utilisateur: http://www.user-agents.org/. Regardez spécifiquement sous le type R pour "robots, crawler, spider".

+0

qu'en est-il des mauvais robots essayant d'obtenir des gens emails? ils n'enverraient pas d'informations user-agent dans la requête: p –

+0

@hugo_leonardo, c'est une question complètement différente – Pacerier

1

La plupart des utilisateurs n'ont pas d'adresse IP statique. Avez-vous configuré un robots.txt pour refuser l'accès aux robots d'exploration/robots? Vous pouvez périodiquement interroger vos fichiers journaux pour essayer d'identifier ceux qui ne respectent pas le fichier robots.txt, bien que l'agent utilisateur soit facilement usurpé/modifié.

+2

Il ne veut pas bloquer les bots, il veut les ignorer dans ses statistiques de visite. –

3

Une autre façon de le faire est avec ajax. La plupart des robots d'exploration n'analysent pas javascript.

+0

Oh ... ouais c'est un bon point :) Avec "Most" qu'est-ce que tu veux dire? Y a-t-il des robots qui analysent js? – markzzz

+0

Google sont capables d'analyser javascript. Mais ** je pense ** que c'est seulement sur les pages avec "#!" Dans l'url (comme twitter). –

+0

Quoi qu'il en soit, puisque google est censé respecter 'robots.txt', vous devriez l'utiliser aussi. Avec lui, vous pouvez désactiver uniquement la page des statistiques si vous le souhaitez. –

Questions connexes