2

Je suis à la recherche des fonctionnalités que je vais avoir pour mon modèle d'apprentissage automatique, avec les données que j'ai. Mes données contiennent beaucoup de textdata, alors je me demandais comment extraire des fonctionnalités de valeur. Parce que ma compréhension du sujet est limitée, je ne comprends pas pourquoi je ne peux pas analyser le texte, mais je ne comprends pas pourquoi je ne peux pas analyser le texte. d'abord pour obtenir des valeurs numériques. (par exemple: textBlob.sentiment = https://textblob.readthedocs.io/en/dev/, google Clouds Natural Language = https://cloud.google.com/natural-language/)Utiliser le sentiment de texte comme caractéristique dans le modèle d'apprentissage automatique?

Y a-t-il des problèmes avec ceci, ou est-ce que je pourrais utiliser ces valeurs comme caractéristiques pour mon modèle d'apprentissage automatique?

Merci d'avance pour toute l'aide!

Répondre

0

Bien sûr, vous pouvez convertir un nombre unique d'entrée de texte avec analyse de sentiment, puis utiliser ce numéro comme caractéristique dans votre modèle d'apprentissage automatique. Rien de mal avec cette approche.

La question est de savoir quel type d'information vous voulez extraire des données textuelles. Parce que l'analyse des sentiments convertit l'entrée de texte en un nombre compris entre -1 et 1 et le nombre représente la valeur positive ou négative du texte. Par exemple, vous pouvez avoir besoin d'informations sur les sentiments des clients concernant un restaurant pour mesurer leur satisfaction. Dans ce cas, il est bon d'utiliser l'analyse de sentiment pour prétraiter les données de texte.

Mais encore une fois, l'analyse des sentiments n'a qu'une idée sur la façon dont le texte est positif ou négatif. Vous pouvez vouloir regrouper des données de texte et les informations de sentiment ne sont pas utiles dans ce cas car elles ne fournissent aucune information sur la similarité des textes. Ainsi, d'autres approches telles que word2vec ou sac de mots seront utilisées pour la représentation des données textuelles dans ces tâches. Parce que ces algorithmes fournissent une représentation vectorielle de l'instance de texte d'un seul nombre. En conclusion, l'approche dépend du type d'informations que vous devez extraire des données pour votre tâche spécifique.

+0

Merci pour votre réponse! Cela a du sens, merci. Je fais un modèle prédisant le succès de box office de films basés sur userdata de youtube, twitter et facebook. Je dirais que le sentiment est une caractéristique précieuse. D'ailleurs, le regroupement de texte serait-il aussi applicable dans mon cas? – Lourens

+0

Non, votre problème n'est pas le regroupement, mais la régression ou la classification de base de tâches sur la façon dont vous mesurez le succès. Je pense que l'analyse du sentiment résout votre problème. Parce que, si le commentaire de l'utilisateur est positif sur un film, le succès au box-office ou vice versa. –