2017-06-21 4 views
0

Je travaille sur un projet d'école pour l'exploration de données, où l'on a donné des données CSV à partir Kaggle (ce qui est la façon dont les regards de données (2 lignes sur 6970)):convertir csv à arff

4,1970,Female,150,DomesticPartnersKids,Bachelor's Degree,Democrat,,Yes,No,No,No,Yes,Public,No,Yes,No,Yes,No,No,Yes,Science,Study first,Yes,Yes,No,No,Receiving,No,No,Pragmatist,No,No,Cool headed,Standard hours,No,Happy,Yes,Yes,Yes,No,A.M.,No,End,Yes,No,Me,Yes,Yes,No,Yes,No,Mysterious,No,No,,,,,,,,,,Mac,Yes,Cautious,No,Umm...,No,Space,Yes,In-person,No,Yes,Yes,No,Yay people!,Yes,Yes,Yes,Yes,Yes,No,Yes,,,,,,,,,,,,,,,,,No,No,No,Only-child,Yes,No,No 
5,1997,Male,75,Single,High School Diploma,Republican,,Yes,Yes,No,,Yes,Private,No,No,No,Yes,No,No,Yes,Science,Study first,,Yes,No,Yes,Receiving,No,Yes,Pragmatist,No,Yes,Cool headed,Odd hours,No,Right,Yes,No,No,Yes,A.M.,Yes,Start,Yes,Yes,Circumstances,No,Yes,No,Yes,Yes,Mysterious,No,No,Tunes,Technology,Yes,Yes,Yes,Yes,No,Supportive,No,PC,No,Cautious,No,Umm...,No,Space,No,In-person,No,No,Yes,Yes,Grrr people,Yes,No,No,No,No,No,No,Yes,No,No,Yes,No,Own,Pessimist,Mom,No,No,No,No,Nope,Yes,No,No,No,Yes,No,Yes,No,Yes,No 

et nous devons obtenir ceci à un format de .arff pour l'usage dans weka. Je tapais manualy l'en-tête (107 attributs)

@ATTRIBUTE user_id NUMERIC 
@ATTRIBUTE yob  NUMERIC 
@ATTRIBUTE gender {Male,Female} 
@ATTRIBUTE income {150,100,75,50,25,10} 
@ATTRIBUTE householdstatus {MarriedKids,Married,DomesticPartnersKids,DomesticPartners,Single,SingleKids} 
@ATTRIBUTE educationlevel {Bachelor's Degree,High School Diploma,Current K-12,Current Undergraduate,Master's Degree,Associate's Degree,Doctoral Degree} 
@ATTRIBUTE party {Democrat,Republican} 
@ATTRIBUTE Q124742 {Yes,No} 
@ATTRIBUTE Q124122 {Yes,No} 

et je reçois cette erreur:

} prévu à la fin de l'énumération lu eol jeton

Alors j'ai essayé d'utiliser le WEKA convertisseur mais il m'a donné une erreur

Mauvais nombre de valeurs.Lire 2, attendu 1, lire le jeton [EOL], ligne 4 Problème rencontré à la ligne: 3

+0

Quel projet Kaggle? Je vais essayer si je peux obtenir le fichier de données. – zbicyclist

+0

[link] (https://inclass.kaggle.com/c/can-we-predict-voting-outcomes) ty pour votre réponse – candy

Répondre

1

Voici ce que je l'ai fait: De Kaggle, j'ai téléchargé train.csv (5568 cas, le plus haut ID numbeer 6960).

Je n'ai pas utilisé le convertisseur - je l'ai simplement chargé dans le Weka Explorer en tant que fichier CSV. Quelques problèmes et leur solution:

  1. Ligne 3: Première instance de "Bachelor's Degree". Il n'a pas aimé cette citation unique ("ligne 3, lire 7, attendu 108"). Débarrassez-vous de toutes les guillemets simples (en utilisant un remplacement global dans un éditeur de texte). Ensuite, j'ai essayé de le charger à nouveau dans Weka.
  2. Le fichier n'a pas de CR (touche Entrée sur le clavier) à la fin de la dernière ligne, ce qui a provoqué une erreur ("null on line 5569"). J'en ai ajouté un, encore dans un éditeur de texte. Puis je l'ai chargé dans Weka, et jeté un coup d'oeil aux variables.
  3. YOB (année de naissance) est manquant pour environ 300 instances, avec "NA" rempli. Ainsi, il n'a pas évalué comme chaîne ou numérique. Edited ceux-ci pour être des cellules vides à la place. Ensuite, je l'ai chargé dans Weka.
  4. Et, bien sûr, déplacé Party à la variable de classe (à la fin). Je l'ai fait à Weka.
  5. enregistré ce que train.arff

  6. Loaded le dans, et il semble fonctionner correctement. J'ai généré 51% de précision avec un classificateur OneR, mais vous ne vous attendez pas à ce qu'un classificateur OneR fonctionne bien ici. Je suis sûr que tu peux faire mieux.

Remarque: Je n'ai pas tapé manuellement les en-têtes. Cela a dû prendre du temps!

Bonne chance!

+0

Je ne l'ai toujours pas fait fonctionner à votre façon et j'ai eu une erreur. https://drive.google.com/open?id=0B6ozOhSRitenRzZDNElMUVBSeFk (ceci est le lien de ce que j'ai fait jusqu'à présent, et je reçois une erreur prématurée). Désolé de vous déranger, mais pouvez-vous regarder le fichier et me dire où je me suis trompé. – candy

+0

Lorsque je charge la partie de données du fichier arff dans Excel, elle sort dans la colonne DD, à l'exception de quelques enregistrements. Le premier cas où ce n'est pas la ligne 118 - l'erreur que vous obtenez (quand je le répète) est à la ligne 119.Est-il censé y avoir un point d'interrogation dans cette colonne (et des colonnes similaires plus loin dans le fichier)? – zbicyclist

+0

J'ai réussi à faire les choses correctement en recommençant depuis le début enyway merci beaucoup pour l'aide et si vous voyez c'est ce que j'ai fait https://drive.google.com/open?id=0B6ozOhSRitenZ3VxLWFFcG1IQ1U – candy