2012-08-09 9 views
2

est-il un moyen d'identifier de manière fiable un bot facebook par IP?Comment identifier un bot Facebook?

Mon site se fait marteler par des robots prétendant être facebook, mais comment est-ce que je sais à coup sûr? Je suis à la recherche d'une procédure officielle pour valider un bot facebook similaire à ce que Google recommande pour ses bots here. Puis-je peut-être analyser OrgName dans whois et faire confiance à cela? Ou cela peut-il être faux?

+1

Vous pouvez vérifier les adresses IP, si elles proviennent des plages officiellement publiées: http://stackoverflow.com/questions/8859013/whats-the-ip-address-range-of-facebooks-open-graph-crawler – CBroe

Répondre

3

Je réponds à cette question pour l'indexation des mots clés dans les internets.

En effet, il semble que la meilleure façon d'identifier un bot Facebook (Facebook grattoir) est en faisant correspondre IP à la plage de l'agent a déclaré Facebook plages d'adresses IP qui peuvent être acquis en exécutant

whois -h whois.radb.net '!gAS32934' 
+1

Requête mise à jour depuis [le site de Facebook] (https://developers.facebook.com/docs/sharing/best-practices#crawl): whois -h whois.radb.net - '-i origine AS32934' | grep^route >> Renvoie des informations similaires, mais avec deux différences: 1) Inclut également les adresses IPv6. 2) Le format de sortie est différent. Pas de désordre "A1063" et "C" avant et après la liste. Chaque adresse dans une ligne distincte, y compris le type (route ou route6) – oferei

+0

whois -h whois.radb.net - '-i origine AS32934' | grep^route – oferei

-1

Pourquoi n » t vous vérifiez juste le user-agent, comme

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php) 

au lieu de IP?

+2

Parce que _every_ bot peut envoyer tout ce qu'il veut pour un agent utilisateur - et le sujet de cette question était de discerner les faux bots _pretending_ d'être le grattoir de Facebook de "la vraie chose" ... et c'est exactement la raison pour laquelle Facebook fournit l'accès à la liste des adresses IP qu'ils utilisent ... – CBroe

+0

'user-agent' peut être faux comme vous voulez –

Questions connexes