2017-09-26 3 views
0

J'ai des phrases similaires au format suivantIdentifier les logiciels et la gamme de version dans une phrase

Cette vulnérabilité est arrivé à Firefox1.x avant 1.8, Safari 2.x avant 2.8.

Compte tenu de la phrase ci-dessus, je veux extraire un dictionnaire

{Firefox: 1.0-1.8, Safari: 2.0-2.8} 

problème est comment dois-je identifier la gamme de version avec le logiciel auquel ils appartiennent, en utilisant des techniques de la PNL?

Répondre

0

J'utilise une combinaison de Ners, un pour la détection des noms et une pour les versions:

enter image description here enter image description here

Vous pourriez avoir à: - Conservez une liste de logiciels populaires en cas NER ça manque.
- Façon loufoque de corriger les numéros de version du logiciel; comme "1.x" n'est pas correctement détecté.

Vous pouvez jouer avec ici: http://nlp.cogcomp.org

+0

Merci! Une idée de comment faire correspondre les versions avec le logiciel après la détection? – william007

+0

Je dirais juste ajouter quelques règles pour résoudre le problème. Aucun logiciel actuel ne peut détecter de tels numéros ... – Daniel