2017-06-14 7 views
0

Je prévois d'utiliser Multi Classer Perceptron Classifier de Scikit Learn à cette fin.
La sortie est le sexe de ce mot qui doit être représenté dans un codage à chaud unique comme [1,0,0] pour le mâle, [0, 1, 0] pour la femelle et [0, 0, 1] pour la femelle. Maintenant, l'une des entrées est le mot vecteur pour le mot. Chacun de ces vecteurs a 20 dimensions. Les autres caractéristiques sont son état Part of Speech Tags et Singularity (0)/Plurality (1). Ma question est de savoir comment utiliser le mot vecteur qui est un tableau en tant que caractéristique dans MLPClassifier?Comment utiliser le mot word retourné par word2vec en tant que caractéristiques?

+0

Vous avez deux classes pour les femmes? –

Répondre

1

Votre vecteur w2v capture une similarité sémantique par rapport au mot. Ce vecteur doit être considéré comme un tout - c'est une caractéristique en soi.

Un bel attribut des réseaux de neurones est leur capacité à extraire et à apprendre des modèles par eux-mêmes. Comme entrée, vous pourriez envisager de concaténer le vecteur de mot avec un équivalent vectorisée/numérique de la balise de point de vente, et enfin l'état singulier:

------------------- ---- - 
\_________________/ \__/ |  } ------ 25d vector input to the MLP (assuming your POS takes 4 spaces) 
    w2v vector  POS state 

Tant que vous suivez un plan cohérent avec la formation, les tests et les données non vues, votre MLP utilisera toute l'entrée pour extraire automatiquement les caractéristiques de l'entrée lors de l'apprentissage.

+0

Merci encore! BTW que le paquet GloVe n'avait pas de support pour Hindi! – Djokester

+0

@Djokester Oh! Je suis désolé d'entendre ça. :(J'espère que w2v fait du bien, bonne chance! –