2017-04-18 2 views
0

Il est clair comment former le modèle codeur-décodeur pour la traduction: chaque séquence source a sa séquence cible correspondante (traduction). Mais en cas de résumé de résumé de texte est beaucoup plus court que son article. Selon Urvashi Khandelwal, Neural Text Summarization chaque phrase source a son résumé (plus ou moins long). Mais je crois à peine qu'il existe un tel ensemble de données où chaque phrase a son résumé correspondant. Donc, si j'ai raison, quelles sont les façons possibles de former le modèle de sunch? Sinon, existe-t-il des ensembles de données gratuits pour la synthèse de texte?Quels sont les détails du modèle Sequence-to-sequence pour la synthèse de texte?

+0

Avez-vous lu le papier que vous avez lié? Ils mentionnent le jeu de données sur l'anthologie de l'ACL. – Aaron

+0

@Aaron, bien sûr, je l'ai lu. Si je comprends bien, il contient des documents avec leurs résumés. Ai-je raison? – ichernob

+0

Oui. Je pense qu'ils utilisent seulement le titre de l'article et le résumé dans leurs expériences. Les gens font d'autres trucs pour obtenir des données comme l'utilisation d'un court article et le titre comme résumé. – Aaron

Répondre

0

Vous avez raison de dire qu'il y a très peu de jeux de données volumineux qui ont été créés spécifiquement pour être utilisés pour la formation des modèles de synthèse de texte. Les gens ont tendance à utiliser d'autres données existantes et à trouver des moyens de les transformer en un problème de résumé. Vous pouvez lire d'autres documents de synthèse de texte pour voir ce qu'ils font.