2017-09-13 5 views
0

Après avoir formé un modèle sur l'ensemble MNIST, comment puis-je maintenant classer une image avec deux chiffres? Plus généralement, comment former un modèle pour détecter un nombre quelconque de chiffres sur une image?Formation sur MNIST, détection de séquences de nombres?

+1

Vous avez déjà une réponse avec des informations sur les techniques. Je voulais ajouter une note à la discussion. Vous ne pouvez pas faire ce que vous voulez (détecter plus de chiffres dans une image) tout en vous entraînant simplement sur l'ensemble de données MNIST. Vous devez être un peu plus créatif, car l'architecture réseau que vous utiliserez sera très différente de (par exemple) un RCNN. – Umberto

Répondre

1

Il existe un champ actif appelé "détection d'objet" qui essaie de faire ce que vous voulez. En général, vous pouvez détecter n'importe quoi (chiffres, personnes, voitures, etc.) à partir de n'importe quelles images et même des vidéos.

L'état de l'art des techniques tombent à peu près en deux catégories:

  1. Faster-RCNN, qui propose tout d'abord un grand nombre de fenêtres candidats pour les objets de votre intérêt et détecte alors ce sont en fait à l'intérieur de ces fenêtres.
  2. SSD, qui scanne seulement les images une fois et détecte les objets, plus rapidement mais pas aussi fiable que Faster-RCNN.

Méthode de détection d'objets en temps réel bien connu est YOLO (You Look Only Once), qui tombe dans la catégorie de SSD, et dispose d'un temps réel très impressionnant démo here, pour vous donner une idée de l'objet détection. Rechercher les noms de ces méthodes et vous trouverez beaucoup d'exemple de code qui répond à vos besoins.

Si vous recherchez uniquement la détection de chiffres, consultez également le travail entourant House Number Dataset de Stanford. Cependant, notez que ces travaux datent généralement d'il y a cinq ans et ne battent pas nécessairement les méthodes générales comme Faster-RCNN et SSD.