Je suis dans les premières étapes de l'apprentissage de SkFlow/TensorFlow, donc je vais expliquer ce que j'essaie de faire, aussi incorrect soit-il. Imaginons que j'essaie de construire un modèle pour prédire si une voiture échouera à un test d'émissions.SkFlow: Saisie de données numériques et textuelles dans le modèle
Ma formation et les tests csv pourrait ressembler à ceci
make, fuel, year, mileage, days since service, passed test
vw, diesel, 2015, 10000, 20, 0
honda, petrol, 2008, 1000000, 234, 1
Ainsi, la colonne étant pass/fail
par y, les autres étant x.
Jusqu'à présent, avec l'aide de Baltimore dans mon précédent SO question, je suis en mesure de traiter le jeu de données Iris à partir d'un fichier CSV. Cet ensemble de données est tous les nombres cependant.
Ce site web example on the TensorFlow montre un modèle construit avec des données de recensement, en utilisant des données catégoriques et continues. J'essaie d'utiliser SkFlow si je comprends bien, cela simplifie le processus.
Quoi qu'il en soit, à mon code
x_train = genfromtxt('/Users/ben/Desktop/data.csv', dtype=None, delimiter=',' , usecols=(0, 1, 2, 3,4))
y_train = genfromtxt('/Users/ben/Desktop/data.csv', dtype='int', delimiter=',', usecols = (5))
feature_columns = [tf.contrib.layers.real_valued_column("", dimension=1)]
classifier = tf.contrib.learn.DNNClassifier(feature_columns=feature_columns,
hidden_units=[10, 20, 10],
n_classes=2,
model_dir="./tmp/model1")
# Fit model. Add your train data here
classifier.fit(x=x_train,y=y_train,steps=2000)
J'ai mes données csv lecture in fine dans mes x_train
et y_train
objets. Le CSV n'a aucun en-tête, mais pourrait le faire si nécessaire.
Je crois que je suis en train de définir les colonnes ont quel type de données, quelque chose comme
make = tf.contrib.layers.sparse_column_with_hash_bucket("make", hash_bucket_size=1000)
fuel = tf.contrib.layers.sparse_column_with_keys(column_name="fuel", keys=["diesel", "petrol"])
Comment puis-je construire l'objet feature_columns
qui est passé dans le classifier
?
Vous pouvez vérifier [ce tutoriel] (https://www.tensorflow.org/tutorials/wide/) (comment gérer les données catégoriques) de tensorflow. Aussi ce [cahier kaggle] (https://www.kaggle.com/usersumit/allstate-claims-severity/tensorflow-dnnregressor) peut aussi aider. – turtle