Pour trouver des sujets de tendance, j'utilise le score standard en combinaison avec une moyenne mobile:Les délais pour le score standard
z-score = ([current trend] - [average historic trends])/[standard deviation of historic trends]
Jusqu'à présent, je le fais comme suit:
Quoi qu'il en soit, pour les tendances historiques, je reviens tout simplement 24h. En supposant que nous avons 12 Janvier, 15:45 maintenant:
current_trend = [11 visites Jan, 3:45 - Jan 12, 03:45]
historic_trends = [10 visites Jan, 3:45 - 11 janv , 3:45] + coups [9 janv., 3:45 - 10 janv., 3:45] + coups [8 jan, 3:45 - 9 janv. 3:45] + ...
Mais est-ce vraiment adéquat? Ne serait-il pas mieux si je commençais toujours à 00:00 heures? Par exemple, cette façon pour les mêmes données (15h45):
current_trend = [11 visites Jan, 0:00 - Jan 12, 0:00]
historic_trends = [10 janvier Tubes, 00h00 - 11 janvier, 0:00] + coups [9 janv., 0:00 - 10 janvier, 0:00] + coups [9 janv., 0:00 - 9 janv., 0: 0] + ...
Je suis sûr que les résultats seraient différents. Mais quelle approche vous donnera de meilleurs résultats?
J'espère que vous avez compris ma question et que vous pouvez m'aider. :) Merci d'avance!
Merci, Bill le Lézard, pour cette astuce. Je ne connaissais pas cet algorithme simple mais c'est vraiment cool. Malheureusement, cela ne convient pas à mon objectif, c'est-à-dire trouver des sujets tendance. Mon algorithme filtre les sujets qui sont toujours chauds. Votre algorithme ne le fait pas, n'est-ce pas? ;) Mais c'est très utile pour moi, parce que je filtre aussi les liens tendance. Pour ce faire, c'est utile. Mais votre exemple concernant mon algorithme et les périodes de temps est très bon. Alors, recommandez-vous la première approche (tout simplement aller 24 heures au lieu de commencer à 0:00)? – caw
Après être retourné et relisant la question à laquelle vous étiez lié, je vois le problème avec cette suggestion. Vous avez raison, il ne filtre pas les sujets qui sont toujours chauds.Digg et reddit fonctionnent avec cet algorithme car il ne s'applique qu'à un seul lien, pas à un sujet entier, qui pourrait être représenté par de nombreux hits. De vos deux choix, je préférerais revenir en arrière 24 heures, seulement parce que je ne peux pas imaginer comment le système fonctionnera à 1h du matin si vous revenez seulement à 0:00. Peut-être pourriez-vous diviser la différence (d'une certaine manière) et revenir seulement 12 heures en arrière? –
Oui, la seconde approche échouerait probablement si certains sujets étaient chauds peu avant 0:00. Mais l'inconvénient est que je ne peux pas stocker les données des derniers jours quand je reviens toujours 24h ... – caw