0

J'ai formé un classificateur de forêt aléatoire sur un très petit ensemble de données. Il n'y a qu'une seule fonction, 'Position' avec la cible 'Pertinence'. Mon code est très court et simple et se trouve ici https://github.com/sakshamyadav/ocm_test/blob/master/Untitled.ipynbComment faire des prédictions de forêt aléatoires sur toutes les entrées dans un fichier csv?

Ce que je veux faire maintenant, est la suivante:

  • entrée un fichier csv avec une colonne de
  • Put 'Positions par mon algorithme de forêt aléatoire formé pour déterminer qui sont pertinentes et qui ne sont pas (1 ou 0)
  • Retirez toutes les lignes où pertinentes est 0.
  • Enregistrer le résultat comme csv

Aussi, j'apprécierais des commentaires ou des suggestions sur ma méthode que je suis très nouveau à l'apprentissage de la machine et je serais très intéressé à savoir s'il existe un moyen plus facile d'y parvenir tâche ou si elle peut être améliorée etc Merci beaucoup d'avance :)

PS L'exemple de jeu de données que j'ai fourni dans mon code jupyter portable est complètement aléatoire, je ne veux pas mettre n'importe quelle professsion.

Répondre

0

Asssuming noms de variables à partir de votre code:

df = pd.read_csv('file_name.csv') 
df = df[rfc.predict(df['Position']) != 0] 
df.to_csv('new_clean_file.csv') 
+0

Salut Rafael! Toutes les positions dans 'file_name.csv' sont des chaînes, donc j'obtiens l'erreur' ValueError: impossible de convertir la chaîne en float: 'Director Marketing, Communications & Online'. Dois-je d'une manière ou d'une autre convertir ces chiffres en nombres ou quelque chose? – novice

+0

Oui convertir le 'pd.to_numeric (df ['Position'], les erreurs = 'coerce')' https://stackoverflow.com/questions/42719749/pandas-convert-string-to-int – RafaelLopes