J'utilise fast_align https://github.com/clab/fast_align pour obtenir des alignements de mots entre 1000 phrases allemandes et 1000 traductions anglaises de ces phrases. Jusqu'à présent, la qualité n'est pas si bonne.Lorsque vous utilisez des outils d'alignement de mots tels que fast_align, est-ce que plus de phrases signifie une meilleure précision?
Laissant plus de phrases dans le processus aider fast_align à être plus précis? Dites que je prends quelques données OPUS avec 100k paires de phrases alignées et ensuite ajouter mes 1000 phrases à la fin de celui-ci et le nourrir à fast_align. Cela aidera-t-il? Je ne peux pas trouver d'information sur le fait de savoir si cela aurait du sens.
Quel est l'ensemble de données que vous avez, quel est le domaine et le type de contenu et quel est votre objectif? –