2009-11-02 9 views
0

Voici ce que je pense:PHP et Twitter | Créer un index Engine

1) Créer un service qui se déroulera toutes les heures et la recherche de twits en utilisant des critères spécifiques

2) Je dois aussi filtrer les déchets (Le moteur d'index doit être assez intelligent, un peu comme un service anti-spam)

Quelles sont les meilleures stratégies/idées pour y parvenir?

PS

Toutes les idées s'il est le moteur anti-spam déjà créé pour Twitter?

Répondre

1

Eh bien pour les débutants probablement le meilleur endroit pour commencer est l'API Twitter (2nd lien de Google) et obtenir votre recherche de travail. Si votre pile de serveurs est de la persuasion * nix, en utilisant cron pour planifier une requête wget/curl à votre page de recherche serait probablement la stratégie la plus simple. Malheureusement, mes connaissances en programmation de tâches Windows font cruellement défaut, mais je suis certain qu'il existe de meilleurs moyens que d'utiliser le planificateur de tâches croustillant. Enfin, pour votre filtrage, écrire un classificateur Bayesian peut être exagéré car il peut y avoir des services auxquels vous pouvez vous abonner, mais aucun que je sache pour Twitter. Les classificateurs bayésiens sont assez communs et je suis certain qu'avec un peu de recherche de votre moteur de recherche préféré devrait aboutir à une solution en conserve ou au moins à la façon de créer votre propre. Gardez à l'esprit que le spam est relatif, donc vous devez former votre classificateur, ce qui au début prend un peu de temps. Et en fait, PHP n'est peut-être pas la meilleure langue pour cette tâche, mais quelque chose que votre crontab peut aussi appeler périodiquement pour faire la formation.

Je me rends compte que c'est un niveau très élevé, mais les liens devraient être suffisants d'un point de départ pour vous aider à démarrer dans la bonne direction.

+0

merci. J'ai déjà fait fonctionner ma recherche. Recherche bayésienne. Quelle langue pensez-vous sera le meilleur pour cette tâche? – Chicago

+0

Les langages fonctionnels semblent bien convenir à ce type de tâche. Haskell ou Erlang seraient quelques suggestions, mais j'espère que d'autres commentateurs seraient en mesure d'éclairer davantage la décision. – Erik