2009-10-19 10 views
1

Je voudrais mettre en œuvre le système de gestion de contenu avec SGBDR en java/j2ee, et je voudrais connaître les meilleures pratiques en matière de gestion de contenu HTML d'entréeLes meilleures pratiques pour le contenu HTML d'entrée de traitement à côté serveur en Java

Voici les quelques doutes que j'ai, je suis sûr qu'il ya beaucoup d'autres choses à faire ..

  1. avons-nous besoin d'échapper à des balises HTML et des caractères spéciaux avant de sauvegarder des contenus HTML à la base de données
  2. Comment nous validons/supprimer les symboles spéciaux non valides dans le contenu HTML à grande entrée
  3. Les meilleures pratiques pour l'affichage du contenu HTML dans le navigateur de base de données
  4. Tout risque de sécurité impliqué dans lors de la manipulation du contenu HTML

Au plaisir de voir quelques idées de gourous!

Répondre

0

Je ne suis pas un gourou dans cela, mais je pense que vous devrez savoir comment faire face à certains caractères spéciaux et les séquences d'échappement comme entre guillemets (deux doubles et simples) .. etc

Peut être vous pouvez essayez de remplacer ces charas spéciales et les séquences d'échappement par d'autres caractères.

Mayb Quelqu'un d'autre qui est actuellement en train de delaing avec cms acariens vous aider à ...

+0

Salut Richie, merci pour la réponse rapide – ramrajedotcom

1

Utilisez un outil tel que Neko pour nettoyer le code HTML en XHTML, puis utilisez un analyseur XML pour l'analyser.

+0

Il y a quelques classes intéressantes dans le paquet javax.swing.text.html.parser qui peuvent être utiles pour analyser le HTML malpropre. http://java.sun.com/javase/6/docs/api/javax/swing/text/html/parser/package-summary.html –

1

J'ai récemment essayé quelques bibliothèques de nettoyage html, et le meilleur que je suis tombé sur le Cobra Html Renderer and Parser qui semble plus rapide que d'autres et parvient également à convertir HTML plus XHTML. Je suis d'abord allé pour HTML Tidy, mais il a fini par se plaindre de "HTML incomparable" trop souvent.

Ce que je vous fortement décourager de le faire est d'utiliser un REGEX ;-)

0

Je vous conseille de regarder l'architecture et la conception d'un CMS open source comme Alfresco ou Apache Jackrabbit.

Ce sont des référentiels de contenu réels qui ne contiennent probablement pas d'intégration de bout en bout, mais qui peuvent vous montrer un modèle de données sous-jacent qui est un bon point de départ.

Je vous recommande également de vérifier OWASP pour plus d'informations sur la sécurité des applications Web et les vulnérabilités, et en particulier la sécurité issues relevant to Java developers.

Questions connexes