2017-05-22 5 views
2

Dans le paper on fasttext pour la classification supervisée, les auteurs ont spécifié différentes quantités d'unités cachées en modifiant certains paramètres (h est celui sur les pages 3,4 - Dans le tableau 1, vous voyez "Il a 10 unités cachées et nous l'évaluons avec et sans bigrams. ") Mais après avoir lu the documentation il ne semble pas qu'il y ait un paramètre" unité cachée "à modifier. Existe-t-il un moyen de spécifier le nombre d'unités cachées? Ou est-ce la même chose que de spécifier l'option -dim?Spécification du nombre d'unités cachées dans Facebook fasttext

+0

: Je voudrais demander, lors de l'utilisation Fasttext pour le classement, quel est le nombre de nœuds utilisés dans le réseau de neurones softmax? --Nombre de nœuds dans la couche softmax est le même que le nombre de vos classes (ou un peu plus pour softmax hiérarchique). Ensuite, il ya une couche cachée dont la taille est définie par vous (wit-dim) .-- Ceci est cohérent avec la réponse ci-dessous si acceptant. –

Répondre

0

k est le no. des classes

à la section 2.1 de https://arxiv.org/pdf/1607.01759v3.pdf

Plus précisément, la complexité de calcul est O (kh) où k est le nombre de classes et h la dimension de la représentation du texte.


Lorsque les classes prédisait dans la classification texte, du docs:

k argument est facultatif, et est égal à 1 par défaut. Pour obtenir k étiquettes les plus probables pour un morceau de texte, utilisez:

$ ./fasttext prédire model.bin test.txt k


Lors de la formation du modèle, ceci est implicitement spécifié dans les données d'apprentissage lors d'une formation supervisée avec l'étiquette __label__*.

De l'example tutorial: A partir de la page du groupe facebook

$ wget https://s3-us-west-1.amazonaws.com/fasttext-vectors/cooking.stackexchange.tar.gz && tar xvzf cooking.stackexchange.tar.gz 
--2017-05-23 09:03:26-- https://s3-us-west-1.amazonaws.com/fasttext-vectors/cooking.stackexchange.tar.gz 
Resolving s3-us-west-1.amazonaws.com... 54.231.236.45 
Connecting to s3-us-west-1.amazonaws.com|54.231.236.45|:443... connected. 
HTTP request sent, awaiting response... 200 OK 
Length: 457609 (447K) [application/x-gzip] 
Saving to: ‘cooking.stackexchange.tar.gz.1’ 

cooking.stackexchange.tar.gz.1  100%[================================================================>] 446.88K 385KB/s in 1.2s  

2017-05-23 09:03:28 (385 KB/s) - ‘cooking.stackexchange.tar.gz.1’ saved [457609/457609] 

x cooking.stackexchange.id 
x cooking.stackexchange.txt 
x readme.txt 


$ cat readme.txt 
The data in this archive is derived from the user-contributed content on the 
Cooking Stack Exchange website (https://cooking.stackexchange.com/), used under 
CC-BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0/). 

The original data dump can be downloaded from: 
https://archive.org/download/stackexchange/cooking.stackexchange.com.7z 
and details about the dump obtained from: 
https://archive.org/details/stackexchange 

We distribute two files, under CC-BY-SA 3.0: 

- cooking.stackexchange.txt, which contains all question titles and 
    their associated tags (one question per line, tags are prefixed by 
    the string "__label__") ; 

- cooking.stackexchange.id, which contains the corresponding row IDs, 
    from the original data dump.