1

J'ai formé des données à partir de 500 appareils pour prédire leurs performances. Ensuite, j'ai appliqué mon modèle formé à un ensemble de données de test pour 500 autres appareils et j'ai obtenu de très bons résultats de prédiction. Maintenant, mes dirigeants veulent que je prouve que ce modèle fonctionnera bien sur un million d'appareils, pas seulement sur 500. Évidemment, nous n'avons pas de données pour un million d'appareils. Et si le modèle n'est pas fiable, ils veulent que je découvre la quantité requise de données de train afin de faire une prédiction fiable sur un million d'appareils. Comment dois-je traiter avec ces cadres qui n'ont pas d'expérience en analyse statistique et en modélisation? Aucune suggestion? MerciComment prouver la fiabilité d'un modèle prédictif aux cadres?

+0

Je pense qu'il y aura des modèles statistiques pour cela, mais je soupçonne aussi qu'ils ont besoin de beaucoup de données plus spécifiques. Je ne connais pas grand-chose à l'apprentissage automatique, donc ça pourrait facilement être de ma faute, mais votre description me semble très vague. – biziclop

+5

Ce n'est pas un problème pour les cadres qui ne connaissent pas l'apprentissage automatique. Leur point est valide. Il est possible que votre ensemble d'entraînement et de test ne soit pas représentatif de l'ensemble de votre espace de données et que votre modèle ne fonctionne que pour ce sous-ensemble biaisé, mais ne permette pas de généraliser pour toutes les données. Vous devez leur montrer que le petit ensemble de données que vous avez échantillonné est impartial. Le problème est simple à comprendre. Considérons par exemple que l'ensemble de formation et de test ne contient que des clients masculins. Même si le modèle fonctionne bien, il peut mal fonctionner sur un jeu de données réel avec des clients masculins et féminins. – cel

+0

@cel Merci pour votre réponse. Votre point est absolument valide. Y a-t-il une corrélation entre la taille du train et la fiabilité du modèle? Parce que dans la prochaine étape, je dois leur montrer que le train sélectionné au hasard est assez grand pour construire un modèle fiable. – Mohammad

Répondre

3

J'ai suggéré à @cep d'écrire son commentaire comme réponse - y compris fournir les calculs variance et bias. En tout cas, il pourrait être ajouté

« Ne pas être rapide à assumer Execs sont essentiellement incapables en termes de concepts techniques ou mathématiques »

Bien qu'il y ait peut-être Dilbert responsables là-bas .. quelque part J'ai vu peu d'entre eux moi-même. Plus souvent, les gestionnaires arrivent à leurs postes grâce à un travail acharné. Ils sont susceptibles d'être rouillés - mais les capacités sont probablement encore là.

Dans ce cas, qu'ils aient ou non un «arrière-plan dans l'analyse statistique et la modélisation», ils appliquent le bon sens.

La première chose que vous pourriez faire est de fournir le contexte et la terminologie appropriés. @cel a mentionné certaines d'entre elles: fournir des valeurs concrètes pour:

  • hypothèses
    • quelles hypothèses faites-vous au sujet des données.
    • Sur quelle base est-il à considérer l'extrapolation des données limitées
    • pourquoi devrait lesdits résultats extrapoated faire confiance à appliquer à 99,5% des données non vérifiées
  • distribution de données
    • statistiques descriptives de base
    • votre prise sur la distribution a priori des données.Justifier pourquoi vous l'avez choisi
  • modélisation
    • qui modèles/approches ont été envisagées et pourquoi
    • quel modèle vous avez réellement choisi et pourquoi
    • comment êtes-vous arrivé à hyperparam'etres
    • comment vous entraîné le modèle
  • résultats
    • mesures statistiques du taux d'ajustement et l'erreur