2017-08-01 4 views
0

J'utilise fast_align https://github.com/clab/fast_align pour obtenir des alignements de mots entre 1000 phrases allemandes et 1000 traductions anglaises de ces phrases. Jusqu'à présent, la qualité n'est pas si bonne.Lorsque vous utilisez des outils d'alignement de mots tels que fast_align, est-ce que plus de phrases signifie une meilleure précision?

Laissant plus de phrases dans le processus aider fast_align à être plus précis? Dites que je prends quelques données OPUS avec 100k paires de phrases alignées et ensuite ajouter mes 1000 phrases à la fin de celui-ci et le nourrir à fast_align. Cela aidera-t-il? Je ne peux pas trouver d'information sur le fait de savoir si cela aurait du sens.

+0

Quel est l'ensemble de données que vous avez, quel est le domaine et le type de contenu et quel est votre objectif? –

Répondre

1

[Avertissement:. Je sais à peu près rien d'alignement et n'ont pas utilisé fast_align]

Oui.

Vous pouvez le prouver à vous-même et également tracer la courbe de précision/échelle en supprimant les données de votre jeu de données pour l'essayer à une échelle encore plus faible. Cela dit, 1000 est déjà ridiculement bas, à ces fins 1000 ≈≈ 0, et je ne m'attendrais pas à ce qu'il fonctionne.

Plus idéal serait d'essayer 10K, 100K et 1M. Plus comparable aux résultats des autres serait un corpus standard, par exemple Wikipedia ou des données provenant des ateliers de recherche. L'ajout de données très différentes des données importantes pour vous peut avoir des résultats mitigés, mais dans ce cas, plus de données peuvent difficilement faire mal. Nous pourrions être plus utiles avec des suggestions si vous mentionnez un domaine spécifique, un ensemble de données ou un objectif.