2010-07-28 4 views
1

je regarde des choses qui peuvent distinguer un blog d'un site web normal. Ce sont des choses qu'un programme doit être en mesure d'identifier à partir du code HTML d'un site Web ou des fonctionnalités particulières qu'un site prend en charge. Par exemple. pings. La même chose pour les sites d'information. Je travaille sur un programme de blog/moniteur de nouvelles et il indexe les sites pour déterminer automatiquement s'il s'agit d'un blog ou d'un site de nouvelles, puis surveille les commentaires des utilisateurs dans les commentaires sur les messages des sites qu'il juge être un blog ou une nature de nouvelles.caractéristiques Distingushing d'un blog, i.e. déférence entre un blog et un site normal

donc ce que je suis est vraiment après des suggestions sur ce que je peux utiliser ou chercher dans l'identification de ces sites.

Il va être une application de bureau écrit en Java, donc si vous avez des spécificités de code en Java qui va être génial.

merci à l'avance

+0

J'ai amélioré le balisage sur cette question. J'ai enlevé 'java' car cela n'a vraiment rien à voir avec java. Si vous trouvez une solution qui fonctionne, faites des recherches sur Java et soumettez une question spécifique aux problèmes que vous rencontrez. J'ai également ajouté l'analyse et la détection html. –

Répondre

1

Vous pouvez rechercher la page le mot « blog », comme cela sera probablement présent. Plus précisément, vous pouvez le rechercher dans certaines parties de la page HTML ou exclure des liens de type pièces. Cela vous donnera un point de départ décent.

En fin de compte, cependant, c'est quelque chose qui devra être fait manuellement. Vous devez créer une interface permettant aux utilisateurs de spécifier s'il s'agit d'un blog ou d'un site d'actualités, ou de différentes fonctionnalités, lorsque le site est soumis. Vous devez ensuite créer une base de données de sites et de fonctionnalités et les marquer afin que vous ou un autre administrateur puissiez les examiner et y apporter des modifications. Une fois que vous l'aurez fait pour un site, vous n'aurez plus jamais besoin de le refaire, par exemple http: //*.wordpress.com/ sera tous des blogs.

Certaines fonctionnalités que vous pouvez automatiquement détecter ou obtenir une très bonne chance de détecter, mais en fin de compte, vous aurez besoin d'un examen manuel.

+0

merci pour les modifications et les suggestions – zcourts

0

Rechercher un découvrable RSS ou Atom, qui devrait être présent sur un blog ou un site de nouvelles en série mis à jour.

+0

merci, j'ai eu le rss à l'esprit je vais chercher les autres aussi. – zcourts