2017-05-04 2 views
0

Ma tâche consiste à utiliser IBM Watson pour convertir un fichier PDF en fichier texte ou toute sortie utile à ma tâche.Utilisation de IBM Watson Document Converter pour analyser les fichiers PDF

Le PDF est un ordre d'achat créé par un client et envoyé sous différents formats. Le client peut créer ces bons de commande comme il le souhaite, et je dois les analyser.

J'ai essayé d'utiliser le convertisseur de document avec les paramètres par défaut et la sortie est partout. Tout conseil pour aborder ce serait formidable ... peut-être quelque chose du genre de l'utilisation de l'intelligence d'IBM Watson pour mieux trouver les informations requises dans ces bons de commande même quand ils ne sont pas définis avec.

Merci pour toute aide.

Répondre

3

Vous pouvez facilement voir la documentation API Reference de développeurs IBM pour vous assurer de ma réponse.

Je vais supposer que vous en utilisant curl, mais à l'intérieur des liens ont quelques exemples avec Nodejs, Python, Java si vous voulez. Mais les conditions d'utilisation sont pratiquement les même.

Vérifiez exemple la méthode convertir BOUCLÉ:

curl -X POST -u "{username}":"{password}" -F config="{\"conversion_target\":\"answer_units\"}" -F "[email protected]" "https://gateway.watsonplatform.net/document-conversion/api/v1/convert_document?version=2015-12-15" 

intérieur file, vous choisissez le format de votre fichier, par exemple: PDF Pour construire votre own conversion, dans le gondoler, remplacez le fichier en cours appelé votre possédez un fichier document PDF, HTML ou Word, et remplacez le "conversion_target" par config dans le format que vous voulez convertir. Les valeurs valides sont "answer_units", "normalized_html" ou "normalized_text".

  • Vous pouvez voir un exemple de développeurs IBM à l'intérieur GitHub here.

  • Utilisez cet exemple here.

  • Dans la documentation officielle, vous pouvez voir le didacticiel sur la conversion de documents avec ce service, check here.

+2

Juste pour ajouter à cela. Ce que vous voyez dans un PDF n'est pas toujours ce qu'un ordinateur verra. Le texte peut être stocké hors séquence, ou un graphique (capture d'écran) peut être affiché, tandis que le texte sous-jacent n'est pas lié à ce qui est vu. Le moyen le plus rapide de tester est d'essayer de copier/coller du texte dans un éditeur de texte et de voir les résultats. Si ce n'est pas parfait, la conversion est peu susceptible de faire beaucoup mieux. –