2010-11-29 3 views
0

Quels outils environnement indépendant sont disponibles pour détecter les nouveaux blogs de spam ou des commentaires apparaissant sur une infrastructure d'hébergement? En tant qu'hébergeur occasionnel, nous souhaitons surveiller de nouveaux blogs ou commentaires qui semblent spammés, mais évitez de faire appel à des plugins ou modules dans l'environnement CMS (car ils sont faciles à contourner ou à exposer uniquement à Google).environnement d'hébergement Moniteur des mots-clés spam

Un (pseudo) exemple serait de configurer Google Alert pour "viagra ip: 10.0.0.1", où 10.0.0.1 est l'adresse IP frontale des serveurs. (Google ne propose pas un tel terme de l'opérateur avancé mais ...)

Il semble que je suis à la recherche d'une combinaison d'alertes Nagios + Google + (???) ... ce qui remplit cet espace?

Répondre

0

Je voudrais configurer un cronjob horaire qui wgets l'ensemble du site greps alors les fichiers résultants pour tout le spam des chaînes que vous cherchez une alerte sur un coup. Faites-moi savoir si vous voulez que je pirate un exemple rapide, ou si ce n'est pas la direction que vous pensiez.

+0

Merci - c'est une approche, mais je suppose que j'espérais tirer parti d'autres personnes déjà dans la loi de « télécharger Internet » plutôt que d'avoir à le faire moi-même. wgeting certains des sites que nous hébergeons prendrait des ressources «considérables»;) –

+0

Il ne devrait pas être difficile d'obtenir wget de faire exactement ce que vous voulez. Quelque chose comme: 'wget -r -e robots = off -U Firefox -A .html ' Je veux dire, d'une manière ou d'une autre, vous devez entièrement explorer chaque site, correct? Je ne peux pas imaginer que le HTML finirait par être aussi grand. Ou est-ce que je manque quelque chose ici? – opsguy

+0

En fonction de votre profil Twitter, je pense que vous pouvez juste vouloir me vendre vos services de redémarrer Apache toutes les heures;) ... Vous avez raison wget pouvait le faire, et que nous PROB ne devrait pas faire confiance à Google pour le faire pour nous, mais télécharger tous les sites à l'heure pour les rediriger vers grep est une approche trop intensive. –