J'ai un corpus de texte et j'aimerais trouver des plongements pour des mots à partir d'un caractère. J'ai donc une séquence de caractères en entrée et je veux la projeter dans un espace multidimensionnel.Apprentissage de mots-plongements à partir de caractères en utilisant l'incorporation de mots déjà appris
Comme une initialisation, je voudrais adapter les incorporations de mots déjà appris (par exemple, les Google).
J'ai quelques doutes:
- Ai-je besoin d'utiliser un vecteur de caractères pour intégrer chaque caractère d'entrée dans la séquence d'entrée? Serait-ce un problème si j'utilise simplement l'encodage ascii ou utf-8?
- malgré ce qui est l'entrée définition du vecteur (intégration VEC, ascii, ..), il est vraiment déroutant pour choisir un modèle approprié, il y a plusieurs options mais je ne suis pas sûr que l'on est le meilleur choix: seq2seq, automatique encoder, lstm, multi-régresseur + lstm?
- Pourriez-vous me donner un exemple de code par keras ou tensorflow?
Hey Giuseppe, merci l'homme pour votre réponse, mais ai-je vraiment besoin de l'incorporation de caractères, ou dans l'autre mot pourquoi ai-je besoin de la généralisation pour les similitudes de caractère ici dans ce cas? –