Comment faire des prédictions de forêt aléatoires sur toutes les entrées dans un fichier csv?

J'ai formé un classificateur de forêt aléatoire sur un très petit ensemble de données. Il n'y a qu'une seule fonction, 'Position' avec la cible 'Pertinence'. Mon code est très court et simple et se trouve ici https://github.com/sakshamyadav/ocm_test/blob/master/Untitled.ipynb Comment faire des prédictions de forêt aléatoires sur toutes les entrées dans un fichier csv?

Ce que je veux faire maintenant, est la suivante:

entrée un fichier csv avec une colonne de
Put 'Positions par mon algorithme de forêt aléatoire formé pour déterminer qui sont pertinentes et qui ne sont pas (1 ou 0)
Retirez toutes les lignes où pertinentes est 0.
Enregistrer le résultat comme csv

Aussi, j'apprécierais des commentaires ou des suggestions sur ma méthode que je suis très nouveau à l'apprentissage de la machine et je serais très intéressé à savoir s'il existe un moyen plus facile d'y parvenir tâche ou si elle peut être améliorée etc Merci beaucoup d'avance :)

PS L'exemple de jeu de données que j'ai fourni dans mon code jupyter portable est complètement aléatoire, je ne veux pas mettre n'importe quelle professsion.

Source

2017-09-13 novice

Asssuming noms de variables à partir de votre code:

df = pd.read_csv('file_name.csv') 
df = df[rfc.predict(df['Position']) != 0] 
df.to_csv('new_clean_file.csv')

Source

2017-09-13 15:30:20 RafaelLopes

Salut Rafael! Toutes les positions dans 'file_name.csv' sont des chaînes, donc j'obtiens l'erreur' ValueError: impossible de convertir la chaîne en float: 'Director Marketing, Communications & Online'. Dois-je d'une manière ou d'une autre convertir ces chiffres en nombres ou quelque chose? – novice

Oui convertir le 'pd.to_numeric (df ['Position'], les erreurs = 'coerce')' https://stackoverflow.com/questions/42719749/pandas-convert-string-to-int – RafaelLopes

Comment faire des prédictions de forêt aléatoires sur toutes les entrées dans un fichier csv?

Répondre

Questions connexes