2017-05-02 1 views
-3

J'ai essayé de classer un ensemble de données en utilisant un algorithme de classification bayésien naïf avec un cadre de réduction de la carte. Ma question est comment diviser l'ensemble de données en formation et en test pour calculer l'exactitude des instances classifiées corrigées et incorrectes?comment diviser l'ensemble de données en train et ensemble de test?

+0

Avez-vous envisagé d'utiliser un échantillonnage aléatoire? –

Répondre

0

Vous pouvez utiliser l'ensemble de la formation RemovePercentage filtre : 1. Chargez le plein jeu de données 2. Sélectionnez le filtre RemovePercentage dans le panneau de prétraiter 3. Définissez le pourcentage correct pour la répartition 4. appliquer le filtre 5 . enregistrer les données générées comme un nouvel ensemble de test fichier

: 1. Chargez le jeu de données complet (ou tout simplement utiliser Undo pour annuler les modifications apportées à l'ensemble de données) 2. sélectionnez le filtre RemovePercentage si non encore sélectionné 3. Définissez la propriété invertSelection sur true 4. appliquer le filtre 5. enregistrer les données générées dans un nouveau fichier

+0

ensemble de données est d'environ 1 giga et weka ne fournissent pas de grandes données toute aide? – medooSa

+0

@medooSa Je vais recommander la programmation R et si vous voulez une interface graphique, rien de mieux que RStudio. Une bonne ressource en ligne pour apprendre R est R-bloggers. Cependant, comparé à un PCA ou k-means ... si vous faites la même chose dans R cela prend moins de 5 minutes. (Je l'ai testé en termes d'efficacité) En dehors de R, vos autres alternatives sont RapidMiner ou Apache Hadhoop ... mais à mon avis weka est le meilleur pour bigdata ... Je vous propose de jeter un oeil sur la porte [LINK ] (https://gate.ac.uk/) – Boschko

+0

J'ai écrit un fichier java .jar compilé en utilisant eclipse. Est-ce que cela permet à la programmation R d'importer le fichier .jar et de travailler dessus ou bien je devrais écrire tout le code en utilisant la programmation R? – medooSa