J'ai un exemple pour analyser un fichier de format similaire:
Exemple de données (.data):Essayer d'analyser un fichier .dat et stocke à la matrice 2-D dans Pandas
+ Naoki Abe
- Myriam Abramson
+ David W. Aha
+ Kamal M. Ali
- Eric Allender
Et voici le exemple de python pour stocker le code dans un tableau 2D:
df = pd.read_csv(
filepath_or_buffer='path/to/.data/file',
header=None,
sep=',')
# separate names from classes
vals = df.loc[:,:].values
names = [n[0][2:] for n in vals]
cls = [n[0][0] for n in vals]
de ma compréhension, ce code python signifie que les données seront variables df
et extrait les données de chaîne associées à chaque personne dans la variable vals
. Et puis, il divise les chaînes de vals
en names
et cls
. Et les listes names
et cls
doivent contenir ces composants de telle sorte que le nom de la personne iti soit dans names[i]
et leur classe associée dans cls[i]
.
Cependant, quand je veux utiliser la manière similaire pour analyser un autre jeu de données similaires (.dat),
-1 this is comment1 blah blah blah (it is a big paragraph)
-1 this is comment2 blah blah blah (it is a big paragraph)
-1 this is comment3 blah blah blah (it is a big paragraph)
Par conséquent, je modifié par exemple être comme:
# read in the dataset
df = pd.read_csv(
engine='python',
filepath_or_buffer='data/Pro1/train.dat',
header=None,
sep='\t+')
# separate names from classes
vals = df.loc[:,:].values
comm = [n[0][2:] for n in vals]
rates = [n[:1][0] for n in vals]
Je suis erreur message: TypeError: 'long' object has no attribute '__getitem__'
at comm = [n[0][2:] for n in vals]
J'ai cherché le message d'erreur, il a expliqué que cela signifiait que j'essayais de stocker un int dans la chaîne (?). J'essaie de stocker tout le paragraphe de commentaire et c'est une chaîne. Et dans l'exemple, il stockait une chaîne de noms très bien. Une autre question que j'ai depuis que je devais analyser un fichier .dat
, je suppose que c'est TAB
derrière -1
au lieu de l'espace, je ne suis pas sûr si la plage du tableau I est correct ** mis
Mon expérience.: Je ne suis pas un expert en python comme vous l'avez probablement deviné, je peux certainement lire le code mais je dois faire des recherches en cours de route. Python est mon seul choix en ce moment pour faire une telle analyse de données.