2017-09-28 6 views
1

J'ai commencé à utiliser Stanford-Deepdive il y a quelques temps. Je suis actuellement confronté au problème, que deepdive va interpréter certaines des lignes qu'il obtient comme incomplètes.Préparation des données pour (stanford) Deepdive (ValueError)

Value Error: Expected 6 attributes, but found 5 in input row: 
<Row()> 

J'ai déjà eu ce problème avec un autre ensemble de données. À cet ensemble, il y avait quelques lignes, qui contenaient "\ n" dans le texte. Donc j'ai enlevé cela et tout s'est parfaitement déroulé.

Pour mon nouvel ensemble de données, je supprime "\ n", "\ t" et toute occurrence de plusieurs espaces. Aussi, je remplace toute valeur de texte vide par "VIDE" - toujours l'erreur refuse de partir.

Y a-t-il d'autres erreurs de formatage ou caractères dont j'ai besoin de prendre soin? Est-ce que ma façon d'aborder cette question est raisonnable?

+0

L'a obtenu! Dans les données d'origine, il y avait un champ qui ne contenait qu'un seul "\ t". Dans le processus de préparation des données, celui-ci est devenu un espace singulier. Et plus tard, il n'aurait pas été considéré comme une entrée valide d'affilée. – Junge

Répondre

0

J'ai trouvé le problème. Il a été provoqué par une entrée TAB singulière (\ t). Je l'ai remplacé par un espace unique et à la fin ce ne serait plus un antry valide

donc si vous utilisez du texte pour deepdive, vous voudrez traiter etrys consistant en un seul espace comme s'ils étaient vides.