2010-02-09 4 views
1

Je ne connais pas grand-chose au SEO et au fonctionnement des araignées sur le web, alors pardonnez mon ignorance ici. Je crée un site (en utilisant ASP.NET-MVC) qui a des zones qui affichent des informations extraites de la base de données. Les données sont uniques à l'utilisateur, donc il n'y a pas de réelle mise en cache de sortie côté serveur. Toutefois, étant donné que les données peuvent contenir des éléments que l'utilisateur ne souhaite pas afficher à partir des résultats du moteur de recherche, je souhaite empêcher les robots d'accès d'accéder à la page des résultats de recherche. Y a-t-il des actions spéciales que je devrais prendre pour m'assurer que le répertoire des résultats de la recherche n'est pas analysé? De plus, est-ce qu'une araignée ramperait même une page qui serait générée dynamiquement et est-ce que des actions empêchant certains répertoires d'être en train de fouiller dans mes classements de moteur de recherche?Empêcher le robot d'explorer certaines zones du site

edit: Je devrais ajouter, je suis en train de lire sur le protocole robots.txt, mais il repose sur la coopération du robot d'indexation Web. Cependant, je voudrais également empêcher les utilisateurs de data-mining qui ignorent le fichier robots.txt.

J'apprécie toute aide!

Répondre

2

Vous pouvez empêcher certains clients malveillants de toucher trop fortement votre serveur en appliquant une limitation sur le serveur. "Désolé, votre adresse IP a fait trop de demandes à ce serveur au cours des dernières minutes. Veuillez réessayer plus tard." En pratique, cependant, supposons que vous ne pouvez pas empêcher un utilisateur vraiment malveillant de contourner les mécanismes de limitation que vous avez mis en place.

Étant donné que, voici la question plus importante:

Êtes-vous à l'aise avec les informations que vous la mise à disposition pour tout le monde à voir? Sont vos utilisateurs à l'aise avec cela?

Si la réponse à ces questions est non, vous devez vous assurer que seuls les utilisateurs autorisés peuvent voir les informations sensibles. Si les informations ne sont pas particulièrement sensibles mais que vous ne voulez pas que les clients l'explorent, la limitation est probablement une bonne alternative. Est-il même probable que vous allez être rampé de toute façon? Sinon, robots.txt devrait être très bien.

+0

Merci pour la réponse. Il appartient à l'utilisateur quelles informations il décide de révéler (sachant très bien, c'est public) et il appartient également à l'utilisateur d'ajouter un mot de passe s'il veut le garder caché. Je voudrais que le site soit exploré, afin d'annoncer le service. Je ne veux pas que les données utilisateur soient indexées. – Skoder

1

Consultez le Robots exclusion standard. C'est un fichier texte que vous mettez sur votre site qui indique à un bot ce qu'il peut et ne peut pas indexer. Vous voulez également savoir ce qui se passe si un robot n'honore pas le fichier robots.txt.

+0

J'ai littéralement mis à jour mon post pour inclure l'info robots.txt en même temps que votre message :) – Skoder

2

Il semble que vous ayez 2 problèmes.

Tout d'abord, une préoccupation concernant l'affichage de certaines données dans les résultats de recherche. La seconde concerne les données relatives à l'utilisateur malveillant ou sans scrupules.

Le premier problème sera couvert par l'utilisation appropriée d'un fichier robots.txt car tous les grands moteurs de recherche l'honorent.

Le deuxième problème semble plus lié à la confidentialité des données. La première question qui vient immédiatement à l'esprit est la suivante: S'il y a des informations sur les utilisateurs que les gens ne veulent pas afficher, pourquoi les publiez-vous?
Quelle est la politique de confidentialité pour ces données?
Les utilisateurs ont-ils la possibilité de contrôler quelles informations sont disponibles?
Si l'information est potentiellement sensible mais importante pour le système, pourrait-elle être limitée afin qu'elle ne soit disponible que pour les utilisateurs connectés?

+0

L'utilisateur peut choisir d'afficher quelles informations sont affichées, et il peut protéger ses résultats par mot de passe s'il le souhaite (similaire à Twitter). Même dans les zones protégées, les robots peuvent-ils avoir un compte enregistré, se connecter, effectuer la recherche et mettre en cache le résultat? Naturellement, pas de moteur de recherche de grand nom, mais peut-être malveillant? Je vais protéger cela par balayage ip, mais juste curieux si c'est même possible. – Skoder

+0

@Skoder Si un utilisateur connecté peut être un bot, vous devez regarder les modèles de comportement et probablement implémenter une forme de CAPTCHA pour empêcher toute "navigation" supplémentaire jusqu'à ce que vous puissiez confirmer ce qu'ils font. En réalité, si quelqu'un peut s'inscrire sur le site et parcourir les données, il n'y a aucun moyen de garantir qu'il ne peut jamais être sauvegardé/mis en cache/etc. –

+0

C'est un bon point. Les données ne sont pas super-sensibles/connaissance non-publique, mais j'aime toujours garder la vie privée à un montant élevé (si seulement pour une bonne pratique). Merci pour l'aide. – Skoder

1

Fichier robots.txt comme mentionné.Si cela ne suffit pas, vous pouvez:

  • Bloc useragents inconnu - difficile à maintenir, facile pour un robot de forge de navigateur (bien que la plupart des bots légitimes wont)
  • bloquer les adresses IP inconnues - pas utiles pour site public
  • Exiger les connexions
  • Limiter les connexions utilisateur - difficile à régler, vous continuerez à divulguer des informations.

Peut-être en utilisant une combinaison. Quoi qu'il en soit, c'est un compromis, si le public peut y naviguer, il en va de même pour un bot. Assurez-vous que vous ne bloquez pas les gens aliénés dans vos tentatives de bloquer les robots.

+0

Si le problème concerne les robots malveillants qui parcourent (et mettent en cache) le site, un blocage sur les agents utilisateurs inconnus ne fera pas de différence. Tout type de bot malveillant de base saura faire varier les agents utilisateurs et usurper l'identité des robots que vous voulez visiter. Ils varient également les adresses IP et utilisent des mandataires publics multiples et variables. –

+1

qui résume essentiellement tous mes points ... – Mobs

0

quelques options:

  • forcer l'utilisateur à se connecter pour voir le contenu
  • ajouter une page CAPTCHA avant que le contenu
  • contenu embed Flash
  • charge dynamique avec JavaScript
Questions connexes