J'ai une grande table de voitures d'occasion. L'en-tête ressemble à ceci:Utiliser l'apprentissage automatique pour prédire les prix des voitures d'occasion
maker | model | year | kilometers | transmission | gas_type | price
J'ai fait un modèle de prédiction, qui fonctionnent comme ceci: chaque fois que je voulais connaître le prix d'une voiture, je filtré les données par le fabricant et le modèle, puis je lance une régression quadratique, en utilisant l'année et les kilomètres comme paramètres.
Les résultats sont OK, mais pas pour toutes les voitures.
Le problème est qu'il existe différentes «versions» pour le même fabricant et le même modèle. (Ce n'est pas la même version COMPLÈTE qu'une version simple, ou 4WD, ou sièges en cuir, etc.)
Comment puis-je identifier les différences? Puis-je utiliser une sorte de clustering pour identifier une version différente entre des voitures avec le même modèle et le même constructeur.
Toute aide sera appréciée
Clustering fera encore plus d'erreurs. Il va essayer de fusionner des modèles similaires. –