J'ai un grand ensemble de données avec les mots word_i
et les poids weight[i,j]
, où le poids est la «force de connexion» entre les mots. Je voudrais binariser ces données, mais je veux savoir s'il existe un algorithme pour faire du code binaire de chaque mot de telle sorte que la distance de Hamming entre les codes des mots corresponde à ce poids.Algorithmes: binarisation de données
Ajouté:
Le problème que je travaille est que je veux essayer d'enseigner un filet ou SVM de neurones pour faire des associations entre les mots. Et c'est pourquoi j'ai décidé de binariser les données. Ne demandez pas pourquoi je ne veux pas utiliser des modèles de Markov ou simplement des graphiques, je les ai essayés et je veux les comparer avec des réseaux de neurones.
Ainsi,
Je veux que mon NN sur le mot donné « un » retour son plus proche association ou des mots ensemble et leurs probabilités,
J'ai essayé juste binariser et faire " ab "comme entrée et poids comme réponse préférée, cela a mal fonctionné,
Je pensais faire en sorte que le seuil (pour les poids) change 1 bit de plus. Plus ce seuil est petit, plus vous avez besoin de bits,
J'ai une situation: a-> b w1; b-> a w2; w1 >> w2, donc la direction est significative.
Corréler avec quelle intensité? Le code binaire doit-il être aussi bavard que possible, ou peut-il être quelconque? Pourquoi fais-tu ça? –
Veuillez clarifier votre question. Binarize == sérialiser? Avez-vous besoin d'un algorithme pour calculer la distance de Hamming? Quel est le problème exactement? –
D'après ce que vous avez dit, je suppose que vous voulez remplacer chaque mot par une chaîne binaire de sorte que la distance de hamming soit égale au poids. Correct? Cela impliquerait que le poids est un nombre entier, également correct? –