valeur 'a'
Le choix des choses "bonnes" est une sorte de méta-régression: choisir une valeur pour un qui semble raisonnable. Exécutez la régression. Essayez à nouveau avec et les valeurs plus grandes et plus petites d'un facteur de 3. Si l'une fonctionne mieux que l'original, essayez un autre facteur de 3 dans cette direction - mais arrondissez-le de 9x à 10x pour plus de lisibilité. Vous avez l'idée ... jouez avec jusqu'à ce que vous soyez dans la bonne gamme. Sauf si vous êtes vraiment essayant d'optimiser le résultat, vous aurez probablement pas besoin de le réduire beaucoup plus proche que ce facteur de 3.
Data Set Partition
gens ML ont passé beaucoup de mots analysant la meilleure répartition. La répartition optimale dépend beaucoup de votre espace de données. En tant qu'heuristique globale, utilisez la moitié ou un peu plus pour la formation; du reste, pas plus de la moitié devrait être utilisée pour les tests, le reste pour la validation. Par exemple, 50:20:30 est une approximation viable pour train: test: validate. Encore une fois, vous pouvez jouer avec cela un peu ... sauf que vrai test du taux d'erreur serait entièrement nouveau.
Convergence
Cela dépend beaucoup des caractéristiques de votre espace d'erreur empirique près de la meilleure solution, ainsi que près de régions locales de faible gradient. La première considération est de choisir une fonction d'erreur qui est susceptible d'être convexe et qui n'a pas de régions aplaties. La seconde est d'avoir une idée de l'ampleur du gradient dans la région d'une solution désirée (la normalisation de vos données aidera à cela); utilisez ceci pour aider à choisir le rayon de convergence; vous pourriez vouloir jouer avec cette mise à l'échelle 3x ici aussi. Le dernier est de jouer avec le taux d'apprentissage, de sorte qu'il est adapté aux données normalisées.
Est-ce que cela aide?
Cela ne constitue-t-il pas plus une question pour la validation croisée? –
La régression linéaire de @Natecat est techniquement l'apprentissage automatique, mais à son niveau le plus fondamental, je dirais –
Il n'y a pas de règle stricte pour déterminer le paramètre de convergence et de régularisation. Vous pouvez diviser votre ensemble de données en 3 parties: train, validation, test. Vous pouvez vous entraîner sur des données d'entraînement avec différentes valeurs de a et pour différents nombres d'itérations. Ensuite, vous pouvez prédire sur l'ensemble de validation pour voir à quel point votre classificateur fait de nouvelles données. Cela donne un indice quant à savoir si vous overfit/underfit. Une fois que vous obtenez de bons résultats sur l'ensemble de validation, prédisez sur l'ensemble de test pour obtenir une «vraie» mesure de la qualité de votre classificateur. – user2570465