2016-05-14 1 views
0

J'ai deux email testfiles:métadonnées Tika de misses email jour

  1. Un fichier qui a été créé en utilisant "Enregistrer sous" dans Mac Mail (cela crée un fichier txt)
  2. un fichier a été créé en faisant glisser un e-mail de Mac mail au bureau (ce qui crée un fichier .eml)

Si je nourris les fichiers avec

curl -T filename http://localhost:9998/detect/stream 

Je reçois la réponse "message/rfc822" pour les deux fichiers.

Si je lance

curl -T filename http://localhost:9998/meta 

Je reçois les métadonnées, mais dans le cas de (1) Je ne comprends pas la date extraite, alors que dans le cas (2) que je fais.

Je comprends, bien sûr, que le fichier .eml inclut l'en-tête brut complet, tandis que le fichier .txt n'inclut qu'un en-tête très abrégé. Cependant, même l'en-tête abrégé inclut un champ "Date", et je pense que Tika devrait l'extraire. Est-ce un bug ou intentionnel? Dans ce dernier cas, y a-t-il quelque chose que je puisse faire pour que le Tika puisse extraire la date au cas (1)?

J'utilise Tika-server 1.14.

Répondre

1

Merci d'avoir ouvert TIKA-1970; la bibliothèque mime4j de James sous-jacente n'est pas capable d'analyser une date de format "16 mai 2016 à 09:30:32 GMT + 1". Nous allons ajouter du code d'analyse de date supplémentaire pour capturer les formats de date que mime4j ne reconnaît pas au niveau de Tika.

Encore une fois, merci d'avoir remarqué et d'avoir ouvert un numéro sur notre JIRA.