J'ai formé un classificateur de forêt aléatoire sur un très petit ensemble de données. Il n'y a qu'une seule fonction, 'Position' avec la cible 'Pertinence'. Mon code est très court et simple et se trouve ici https://github.com/sakshamyadav/ocm_test/blob/master/Untitled.ipynbComment faire des prédictions de forêt aléatoires sur toutes les entrées dans un fichier csv?
Ce que je veux faire maintenant, est la suivante:
- entrée un fichier csv avec une colonne de
- Put 'Positions par mon algorithme de forêt aléatoire formé pour déterminer qui sont pertinentes et qui ne sont pas (1 ou 0)
- Retirez toutes les lignes où pertinentes est 0.
- Enregistrer le résultat comme csv
Aussi, j'apprécierais des commentaires ou des suggestions sur ma méthode que je suis très nouveau à l'apprentissage de la machine et je serais très intéressé à savoir s'il existe un moyen plus facile d'y parvenir tâche ou si elle peut être améliorée etc Merci beaucoup d'avance :)
PS L'exemple de jeu de données que j'ai fourni dans mon code jupyter portable est complètement aléatoire, je ne veux pas mettre n'importe quelle professsion.
Salut Rafael! Toutes les positions dans 'file_name.csv' sont des chaînes, donc j'obtiens l'erreur' ValueError: impossible de convertir la chaîne en float: 'Director Marketing, Communications & Online'. Dois-je d'une manière ou d'une autre convertir ces chiffres en nombres ou quelque chose? – novice
Oui convertir le 'pd.to_numeric (df ['Position'], les erreurs = 'coerce')' https://stackoverflow.com/questions/42719749/pandas-convert-string-to-int – RafaelLopes