Quel est un moyen fiable de compter automatiquement les caractères et/ou les mots dans un fichier .doc ou .docx?Obtenir de manière fiable un nombre de caractères pour les fichiers .doc
La seule exigence réelle est un nombre raisonnablement précis et raisonnablement fiable.
Il doit fonctionner avec des documents contenant autre chose que du script latin, donc compter les caractères est suffisant pour la plupart des cas.
Le nombre ne doit pas forcément correspondre à celui de Word, mais le plus proche est le meilleur.
Puisqu'il y a une quantité d'applications différentes qui peuvent générer des fichiers .doc, il est correct de ne rien compter, mais ce cas doit être attrapable afin que nous sachions qu'un nombre peut être inexact. Pour tous les autres cas, le compte doit être, disons, précis à au moins 99% au moins 99% du temps.
Je suis ouvert quant aux technologies impliquées, mais quelque chose qui peut fonctionner sur une ligne de commande * NIX serait grandement préféré.
Existe-t-il une solution raisonnable pour cela?
Vous pouvez utiliser wvSummary (http://linux.die.net/man/1/wvsummary) si vous pouvez compter le dernier enregistrement par Word (ou au moins un programme qui enregistre les métadonnées Word). –
@Matthew Malheureusement, s'appuyer sur des métadonnées dans les fichiers eux-mêmes est exactement ce qui est trop peu fiable. :) – deceze
pouvez-vous installer le mot sur une machine Windows quelque part dans votre réseau et juste utiliser Word lui-même (via certains COM ou VBA) pour obtenir le compte exact? –