2011-08-11 3 views
1

Nous sommes une boutique java exécutant jdk 1.6. On m'a récemment demandé d'enquêter sur un logiciel qui comparerait deux documents de l'équipe d'assurance qualité. Ce n'est pas un exercice programmatique, mais plutôt un produit qui pourrait comparer physiquement les documents originaux que nous avons maintenant et ceux qui sont générés à partir de notre code.Logiciel de comparaison de documents

La raison en est que nous avons récemment mis à jour notre logiciel de traitement de documents: Windward Reports et QA veulent s'assurer que les nouveaux documents sont identiques à tous égards à l'ancien. Cela inclut des choses comme la mise en page et la taille de la police. Ce sont des documents contractuels légaux qui ont des exigences pour la taille de la police, le type, etc ... Ils ont déjà un produit EMC appelé XTest pour cela, mais je ne savais pas s'il y avait un open source ou un autre produit commercial qui ferait mieux emploi. Les mises en garde sont que nous n'avons pas de référentiel de documents formel car les documents sont stockés dans notre base de données et nous avons plus de 2k documents dans différents formats: Word, Excel, PDF et RTF. Il peut y avoir quelques autres types comme le texte et le csv. Je pense que cela va être un vrai défi de le faire manuellement, mais je ne sais pas comment faire ça automatiquement sans écrire beaucoup de code, donc je ne pense pas que ce soit une option.

  • Quelqu'un at-il déjà fait face à quelque chose de semblable à cela avant?
  • Des idées ou des opinions à ce sujet?
+0

On m'a dit que je peux écrire quelques contrôles de comparaison de base sur les docs du code pour minimiser le nombre de docs à comparer manuellement, donc il semble que je vais écrire du code après tout, mais je dois savoir les exigences seront pour cela. Je regarde aussi les fonctionnalités de XTest pour voir ce qui peut être automatisé. –

Répondre

0

Nous avons opté pour une solution hybride. J'ai découvert que XTest fonctionne avec certains anciens formats de fichiers et pdf, mais pas de fichiers rtf ou même txt. J'ai donc créé un utilitaire qui va exécuter notre ancien code iText ou notre nouveau code iText en pointant mon utilitaire à chaque base de code séparément. J'ai également découvert que les rapports au vent utilise iText sous les couvertures. Les fichiers rtf que nous utilisons pour générer les pdf devront être manipulés manuellement pour les comparaisons, mais la génération des fichiers peut être faite avec l'utilitaire, plutôt que d'avoir quelqu'un qui essaie de faire cette tâche manuellement à travers le code. Xtest semble être très bien adapté pour gérer les fichiers pdf.

0

vous pourriez être en mesure d'obtenir un logiciel de plagiat similaire à celui que les universités utilisent. Il devrait trouver toutes les similitudes dans le texte, mais je ne suis pas sûr si elles détectent la mise en page/tailles de police.