Répondre

2
  1. Si vous un ensemble de données ont marqué, vous pouvez utiliser les deux. Si vous n'avez pas d'étiquettes, vous ne pouvez utiliser que l'apprentissage non supervisé.

  2. Ce n'est pas une question de "mieux". C'est une question de ce que vous voulez accomplir. Par exemple. les données de clustering sont généralement non supervisées - vous voulez que l'algorithme vous indique comment vos données sont structurées. La catégorisation est supervisée puisque vous devez apprendre à votre algorithme ce qu'il faut faire pour faire des prédictions sur des données invisibles.

  3. Voir 1.

Sur une note côté: Ce sont des questions très larges. Je vous suggère de vous familiariser avec certaines fondations ML.

Bon podcast par exemple ici: http://ocdevel.com/podcasts/machine-learning

Très bon livre/cahiers de Jake Vanderplas: http://nbviewer.jupyter.org/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/Index.ipynb

1

en fonction de vos besoins. Si vous avez un ensemble de données existantes, y compris les valeurs cibles que vous souhaitez prédire (étiquettes) alors vous avez probablement besoin de supervised learning (par exemple est quelque chose de vrai ou de faux, ou ces données représentent un poisson ou un chat ou un chien? vous avez déjà des exemples de bonnes réponses et vous dites simplement à l'algorithme ce qu'il faut prévoir). Vous devez également distinguer si vous avez besoin d'une classification ou régression. La classification consiste à catégoriser les valeurs prédites dans des classes données (par exemple, est-il probable que cette personne développe un diabète - oui ou non - en d'autres termes - valeurs discrètes) et la régression lorsque vous devez prédire des valeurs continues (1,2 , 4.56, 12.99, 23 etc.). Au contraire, utilisez le unsupervised learning si vous n'avez pas les étiquettes (ou les valeurs cibles)

Vous essayez simplement d'identifier les groupes de données à mesure qu'ils arrivent. Par exemple. k-means, dbscan, la classification spectrale ..)

Cela dépend et il n'y a pas de réponse exacte, mais d'une manière générale, vous devez:

  1. Prendre et vous voyez des données. Vous devez connaître vos données et seulement ensuite décider de quelle manière vous choisissez ou quel algorithme répondra le mieux à vos besoins.

  2. Entraînez votre algorithme. Assurez-vous d'avoir des données propres et fiables et gardez à l'esprit qu'en cas d'apprentissage non supervisé, vous pouvez ignorer cette étape car vous n'avez pas les valeurs cibles. Vous testez votre algorithme immédiatement

  3. Testez votre algorithme. Courez et voyez comment se comporte votre algorithme. En cas d'apprentissage supervisé, vous pouvez utiliser certaines données d'entraînement pour évaluer la performance de votre algorithme.

Il existe de nombreux livres en ligne sur l'apprentissage automatique et de nombreuses conférences en ligne sur le sujet.