2017-05-23 2 views
-1

J'ai une grande table de voitures d'occasion. L'en-tête ressemble à ceci:Utiliser l'apprentissage automatique pour prédire les prix des voitures d'occasion

maker | model | year | kilometers | transmission | gas_type | price 

J'ai fait un modèle de prédiction, qui fonctionnent comme ceci: chaque fois que je voulais connaître le prix d'une voiture, je filtré les données par le fabricant et le modèle, puis je lance une régression quadratique, en utilisant l'année et les kilomètres comme paramètres.

Les résultats sont OK, mais pas pour toutes les voitures.

Le problème est qu'il existe différentes «versions» pour le même fabricant et le même modèle. (Ce n'est pas la même version COMPLÈTE qu'une version simple, ou 4WD, ou sièges en cuir, etc.)

Comment puis-je identifier les différences? Puis-je utiliser une sorte de clustering pour identifier une version différente entre des voitures avec le même modèle et le même constructeur.

Toute aide sera appréciée

+0

Clustering fera encore plus d'erreurs. Il va essayer de fusionner des modèles similaires. –

Répondre

0

Ce n'est pas un problème de regroupement, juste une caractéristique sous-modèle. Vous pouvez également faire la différence entre un sous-modèle (standard, Luxury Edition, hayon, etc.) et des caractéristiques indépendantes du modèle (4 roues motrices, sièges en cuir, système audio haut de gamme, toit ouvrant, etc.). Le sous-modèle serait probablement une seule entité (colonne de texte), alors que les options seraient des entités individuelles (colonne booléenne).

mise à jour après OP CLARIFICATION

Je vois: ces caractéristiques sont sortie, non entrée.

Oui, vous pouvez utiliser le clustering. Cependant, cela peut identifier ou non des sous-modèles (votre «version»). Si vous regroupez uniquement les observations qui ont une utilisation très similaire (kilomètre) et toutes les autres caractéristiques égales, vous trouverez certains clustering utiles. Cependant, cela ne fonctionnera que dans la mesure où la version est un facteur majeur dans la variation de prix restante. Vous pouvez trouver que votre clustering est également affecté par la région géographique et d'autres facteurs.

+0

Je n'ai pas les données de version, comme je le montre sur mes en-têtes de table. Je demande un moyen d'inférer cette information. – Marcelo