J'ai récemment commencé à travailler sur un projet d'analyse des sentiments sur des textes en allemand et je prévois d'utiliser un stemmer pour améliorer les résultats.Allemand pour l'analyse des sentiments en Python NLTK
NLTK est livré avec un Allemand Snowball Stemmer et j'ai déjà essayé de l'utiliser, mais je ne suis pas sûr des résultats. Peut-être que cela devrait être ainsi, mais en tant qu'informaticien et non linguiste, j'ai un problème avec les formes verbales fléchies qui découlent d'une racine différente. Prenez le mot "suchen" (chercher), qui est dérivé de "tel" pour la 1ère personne du singulier mais pour "tel" pour la 3ème personne du singulier. Je sais qu'il y a aussi de la lemmatisation, mais aucun lemmatiseur allemand actif n'est intégré à NLTK autant que je sache. Il y a GermaNet, mais leur intégration au NLTK semble avoir été abandonnée. Atteindre le point: Je voudrais que les formes verbales fléchies soient ramenées à la même racine, à tout le moins pour les verbes réguliers au même temps. Si ce n'est pas une exigence utile pour mon objectif, dites-moi pourquoi. Si c'est le cas, connaissez-vous des ressources supplémentaires à utiliser qui peuvent m'aider à atteindre cet objectif? Edit: J'ai oublié de mentionner, tout logiciel devrait être libre d'utiliser à des fins éducatives et de recherche.
Merci, je vais certainement essayer cet article quand j'y reviendrai. – Florian