1

Des exemples, des astuces, des conseils pour le scénario suivant?Extraction d'informations, classification, modification

J'ai récupéré des mises à jour de plusieurs sites d'informations différents. J'analyse ensuite cette information pour prédire la tendance actuelle dans le monde.

Je ne pouvais trouver les informations sur l'exploration de données que lors de la recherche de l'idée ci-dessus, mais c'est pour les systèmes de base de données. Bien que l'exploration de données soit similaire à ce que j'essaie de faire, l'exploration de données dans les bases de données est plus spécifique que ce que j'ai récupéré sur des sites Web. Alors quelqu'un pourrait-il me guider sur cet aspect? J'apprécie vraiment toute aide que vous pouvez donner à ce sujet.

Merci.

+3

Pour l'instant c'est encore la science-fiction. – ZippyV

+1

le problème avec ce que vous proposez est qu'il est trop vague. vous cherchez une (?) "tendance actuelle dans le monde". pour le dire simplement, il y a beaucoup de tendances possibles (!!!), et tester chacune d'entre elles prend du temps. c'est un problème intraitable comme actuellement posé. – twolfe18

Répondre

0

Tout d'abord, vous avez besoin de données d'entraînement du passé. Sens, une collection de vieilles nouvelles et l'état de la tendance à analyser à différents moments dans le temps.

Ensuite, vous devez décider comment quantifier cette information. Si la tendance est quelque chose comme "téléphones mobiles vendus", vous pouvez simplement prendre le nombre de mobiles vendus. Les nouvelles sont plus difficiles à quantifier. Par exemple, vous pouvez mesurer la fréquence des mots dans les actualités de formation et prendre les mots les moins fréquents en tant que caractéristiques (similaires aux filtres SPAM). Après cela, vous formez un classificateur sur ces caractéristiques et la tendance du passé. Un bon algorithme est l'algorithme "Random Forest", car il est pratiquement sans paramètre.

Vous aurez besoin de beaucoup de connaissances de base pour réellement mettre en œuvre ce plan. "Les éléments de l'apprentissage statistique" par Hastie, Tibshirani et Friedmann est un bon livre à apprendre. Il peut être téléchargé gratuitement sur la page d'accueil des auteurs.

+0

"Les nouvelles sont plus difficiles à quantifier." C'est le cœur du problème, trouver un moyen de quantifier la probabilité d'une tendance ou comment chaque information trouvée dans les nouvelles impact sur chaque tendance. – givanse

0

Si vous recherchez des algorithmes d'extraction de données, vous devez vérifier l'analyse de cluster et la "factorisation matricielle non négative".
Vous pouvez extraire des sujets généraux avec cela. Obtenir la tendance actuelle à partir de cela est relativement facile.
Mais quel (le cas échéant) des autres sujets obtiendront la prochaine tendance appelle pour la magie ou les réseaux de neurones.