-2

Je travaille sur un problème de classification courte phrase où je reçois les informations suivantesCombinant vecteurs Word et Scalar Caractéristiques pour la classification

Entrée Âge de la personne (1-100) sexe de la personne (Homme ou Femme) contenu de la phrase

sortie Étiquette (type de contenu)

Pour modéliser les phrases J'utilise word2vec combiné avec tfidf. Je voudrais aussi ajouter l'âge et le genre en tant que caractéristiques avec la phrase incluse dans le classificateur. Quelle est la bonne façon de faire cela? Puisque l'inclusion est un tableau à n dimensions et un âge, le genre est scalaire. Je suis confus sur la façon de les ajouter et de visualiser les données.

Répondre

0

Les plongements de mots, en tant que vecteurs n-dimensionnels, ne sont que n scalaires. Donc, si par exemple vous avez des vecteurs à 300 dimensions dérivés de vecteurs de mots, puis un scalaire d'âge (1-100), puis un scalaire de genre (peut-être 0 ou 1), vous avez 302 dimensions de données pour votre classificateur.

Voir le sklearn FeatureUnion transformer pour un exemple de concaténation de caractéristiques aussi variées. (Certains classificateurs peuvent être plus performants si ces fonctionnalités variées sont mises à l'échelle pour avoir des plages/distributions plus similaires.)