2017-09-01 3 views
0

[Note aux rédacteurs: s'il vous plaît déplacer cette question à la communauté de validation croisée]Existe-t-il un algorithme d'apprentissage automatique pouvant être formé avec des paires d'ensembles d'entiers?

Comme, l'ensemble de la formation se compose d'exemples positifs (s1, s2) où s1 est un entier valant et s2 un autre jeu entier . s1 et s2 peuvent avoir une cardinalité différente. Les exemples négatifs sont similaires: paires (s3, s4) d'ensembles d'entiers.

+0

Comment un humain pourrait-il séparer les exemples positifs et négatifs? – Andnp

+0

Des exemples positifs seront extraits d'un ensemble de données. – ligand

+0

Sur l'ensemble de données pour les exemples positifs, des exemples négatifs peuvent être construits par une randomisation qui évitera de produire l'un des exemples positifs. – ligand

Répondre

1

Il semble que le principal problème consiste à extraire des entités à partir des données d'entrée. Une fois que vous avez encodé vos paires de jeux en tant que vecteurs, vous pouvez utiliser presque tous les algorithmes que vous voulez.

L'approche la plus évidente consiste à utiliser l'approche Bag of Words avec des entiers en tant que mots (en particulier, il semble approprié de coder les deux ensembles séparément, puis de concaténer leurs matrices de termes-fréquences).

Bien sûr, vous devrez accepter que vous donniez la plage entière possible au début ou que certains entiers ne soient pas codés.

Si vous voulez un peu de pratique pour le modèle BoW, je vous recommande d'essayer this hackerrank problem. Par exemple, vous pouvez le résoudre en utilisant scikit learn - sa documentation contient un tutoriel sur Working With Text Data.

+0

Serait-il possible d'utiliser un SVM pour la même tâche? Comme dans svm_train (s1, s2, Good) et svm_train (s1, s3, Bad) – ligand

+0

La technique que j'ai décrite n'extrait que des fonctionnalités. Vous pouvez exécuter des algorithmes d'apprentissage automatique sur un ensemble de données extrait. –

+0

Je demandais un algorithme; pas sur l'extraction de fonctionnalités. Parce que je doute que la plupart des algorithmes d'apprentissage automatique fonctionnent bien sur un vecteur clairsemé et très long. C'est pourquoi je demandais un algorithme qui peut directement fonctionner avec des ensembles d'entiers. – ligand