2017-04-03 1 views
0

Nous savons par this article que terminer un test A/B tôt en raison de résultats «significatifs» est une erreur.Est-il acceptable de prolonger un test A/B non significatif?

Mais que se passe-t-il quand un test est exécuté pendant la période de temps souhaitée et affiche des résultats insignifiants - est-il bon de le prolonger? Quels sont les risques?

Ce serait génial avec un exemple mathématique simple de tous les risques, semblable à l'exemple de cet article lié.

Je n'ai qu'une connaissance de base de la théorie des probabilités et des mathématiques, j'apprécierais donc une réponse que je peux comprendre avec cette connaissance. Mon intuition est que cela pourrait être problématique, car avait une expérience avec une fiabilité calculée (montrera des faux positifs dans X% et des faux négatifs dans Y% de ces expériences), mais maintenant vous attendez indéfiniment pour le premier vrai positif ou signification faussement positive. Je devrais donc penser que vous obtenez plus de faux positifs que vous avez pris en compte lors de la configuration de l'expérience d'origine. Mais vraisemblablement, la probabilité de faux positifs diminue également à mesure que nous obtenons plus de données. J'aimerais avoir des chiffres précis là-dessus, si c'est vrai du tout.

+0

(Inversé de http://stats.stackexchange.com/questions/269557/is-it-ok-to-prolong-a-non-significant-ab-test en raison d'un manque d'activité là-bas. pour supprimer cette question si quelqu'un pense que cela est inacceptable sinon.) –

+0

Le message croisé a été marqué comme une copie de ceci: https://stats.stackexchange.com/questions/310119/why-does-collecting-data-until -obtenir-un-résultat-significatif-augmenter-le-type –

Répondre

1

Ceci est un domaine de recherche en cours. Nous avons fait une modélisation et conseillons à nos clients de suivre ce principe:

• Si l'expérience atteint la signification statistique, à savoir lorsque le ruban monte entièrement au-dessus de zéro ou tombe entièrement en dessous, et CI reste important pour 50% plus d'observations qu'il a fallu pour obtenir signification pour les tests de niveau 0.10 (65% plus d'observations qu'il a fallu pour obtenir la signification pour les tests de niveau 0,05), l'expérience est appelée en acceptant l'hypothèse alternative, ou, en En d'autres termes, le traitement gagne.

• Si l'expérience ne sont pas statistiquement significatifs, alors que le ruban CI a réduit à l'endroit où sa largeur représente une différence entre le traitement et le contrôle qui ne sont pas en conséquence la sémantique de l'application , est appelée l'expérience en rejetant l'hypothèse de recherche , ou, en d'autres termes, le traitement ne parvient pas à gagner et nous restons avec le contrôle.

Pour en savoir plus, voici le White Paper.