2009-04-13 6 views
4

Le site allemand nandoo.net vous offre la possibilité de raccourcir un article de presse. Si vous modifiez la valeur en pourcentage avec un curseur, le texte change et certaines phrases sont ignorées.Raccourcissez un texte et ne gardez que des phrases importantes

Vous pouvez voir que dans l'action ici:

http://www.nandoo.net/read/article/299925/

L'article de nouvelles est sur le côté gauche et les balises sont marquées. Le curseur se trouve en haut de la deuxième colonne. Plus vous déplacez le curseur vers la gauche, plus le texte devient court.

Comment pouvez-vous offrir quelque chose comme ça? Y a-t-il des algorithmes que vous pouvez utiliser pour y parvenir? Mon idée était que leur algorithme compte le nombre d'étiquettes et de noms dans une phrase. Ensuite, les phrases avec le moins grand nombre de tags/noms sont laissées de côté.

Cela pourrait-il être vrai? Ou avez-vous une autre idée?

J'espère que vous pouvez m'aider. Merci d'avance!

Répondre

2

Généralement, vous souhaitez conserver les phrases contenant des mots qui sont plus spécifiques à cet article. C'est-à-dire que plus la phrase est "générique", moins elle décrit cet article en particulier.

La méthode normale consiste à utiliser l'analyse bayésienne comme un filtre anti-spam. Déterminez d'abord les mots de l'article qui apparaissent le plus souvent, puis trouvez les phrases qui contiennent ces mots.

+0

Merci beaucoup! Ensuite, il vous suffit de stocker le nombre d'occurrences de tous les mots dans votre base de données. Ce n'est pas un problème. Mais pourquoi avez-vous besoin d'une analyse bayésienne? Vous pouvez parcourir le texte, sélectionner la fréquence des mots et les compter pour chaque phrase. Droite? – caw

+1

Vous ne devez pas utiliser les nombres purs car les mots qui sont naturellement plus abondants sont * attendus * pour avoir des comptes élevés, alors que vous recherchez des mots dont les comptes sont élevés * par rapport aux résultats attendus. L'analyse bayésienne fait exactement cela. –

+0

Thx! Donc, je sélectionne le nombre moyen d'occurrences des mots de la base de données. Ensuite, je détermine quels mots apparaissent plus souvent dans ce texte que dans la moyenne. Au moins, je sélectionne les phrases qui contiennent ces mots fréquents inattendus.Droite? – caw

3

Il s'agit d'un sujet de recherche brûlant en linguistique computationnelle. L'approche peu profonde, utilisant le filtrage bayésien, ne donnera probablement pas de résultats parfaits - mais vous n'avez probablement pas besoin de résultats parfaits de toute façon.

En CL, la règle 80-20 devient rapidement la règle 95-5, donc si vous êtes satisfait de ce que vous pouvez réaliser avec des méthodes superficielles, passez cette réponse.

Si vous voulez voir si vous pouvez améliorer vos résultats, vous pouvez essayer de trouver de meilleures ressources. La tâche à laquelle vous faites référence est appelée «synthèse de texte» dans la communauté de la recherche, et elle a son propre web page qui est désespérément dépassée. Mani and Maybury (1999) est probablement un bon aperçu (je ne l'ai pas lu moi-même), mais aussi assez archaïque. Plus récent est Martin Hassels dissertation sur le sujet, et aussi assez exhaustif, y compris les méthodes indépendantes de la langue (lire: statistiques, c'est-à-dire peu profondes).

Comme toujours, Google sera également en mesure de vous aider. Il suffit de rechercher text summarization.

+0

Merci, donc je sais que faire si Bayesian Filtering donne des résultats insuffisants. – caw

Questions connexes