0

Il existe des textes de description d'événement. Je veux extraire le prix d'entrée des événements. Parfois, le prix d'entrée est conditionnel.Reconnaissance de formes OU reconnaissance d'entités nommées pour l'extraction d'informations en PNL

Ce que je veux accomplir, c'est extraire le droit d'entrée et ses conditions (si disponible). Il est bon de récupérer toute la phrase ou la phrase qui indique le prix d'entrée + c'est les conditions.

Note I: Les textes sont en langue allemande. Note II: Souvent, les phrases ne sont pas complètes, car il s'agit principalement de prospectus ou de publicités.

Quelle serait la catégorie de ce problème en PNL? Est-ce la reconnaissance d'entité nommée et pourrait être résolu en formant un propre modèle avec Apache openNLP? Ou je pensais que peut-être plus facile serait de détecter le modèle via les mots-clés habituels dans le cas d'utilisation (entrée, $, mais, seulement jusqu'à, [numéro] am/pm, ...).

S'il vous plaît faites la lumière sur moi.

Exemples d'entrées: - "Si vous entrez dans le club avant 22h, l'entrée est gratuite, après 6 $." - "Joignez-vous à notre soirée ce soir à 23h jusqu'à 5 heures du matin, le prix d'entrée est de 8 $, mais pour les filles et les étudiants c'est moitié prix."

Répondre

-2

Vous pouvez essayer le CoreNLP de Stanford pour la partie d'extraction d'entité nommée. Il devrait être en mesure de vous aider à choisir les valeurs monétaires, et il existe également un lien vers des modèles formés pour l'allemand (https://nlp.stanford.edu/software/CRF-NER.shtml). Étant donné que c'est bien d'extraire toute la phrase qui contient l'information, je suggère de prendre une approche de classification de phrase binaire. Vous pourriez probablement aller assez loin en utilisant ngrams et certaines informations sur l'entité nommée en tant que caractéristiques. Cela voudrait dire que vous auriez besoin que vous vouliez construire un pipeline qui segmenterait automatiquement vos documents en morceaux de type phrase. Vous pouvez essayer un outil de segmentation de phrases (également fourni par Stanford CoreNLP) https://stanfordnlp.github.io/CoreNLP/. Puisque cela formerait la base de tout autre travail, vous voudrez vous assurer que les résultats sont au moins décents. Peut-être que la structure du document lui-même vous donne assez d'informations pour le segmenter sans même utiliser un outil de segmentation de phrase. Une fois que vous avez ce pipeline en place, vous voudriez annoter les phrases extraites d'un grand ensemble de documents comme pertinentes ou non pertinentes pour en faire une tâche de classification binaire. Ensuite, formez un modèle basé sur cet ensemble de données. Enfin, lorsque vous l'appliquez à des données non vues, utilisez d'abord l'approche de segmentation de phrase, puis classez chaque phrase.

+0

Merci pour votre réponse. Pouvez-vous s'il vous plaît expliquer un peu plus en détail comment je peux trouver les phrases liées à l '«entrée»? Ou je devrais former le modèle? – user3234675

1

Il s'agit globalement d'un problème d'apprentissage de structure. Vous devrez peut-être combiner la reconnaissance d'entités nommées et l'étiquetage avec la résolution de coréférence. Lisez quelques articles sur ces derniers ainsi que le code github connexe et prenez-le à partir de là. Voici une bonne discussion des outils de pointe pour ceux-ci à l'heure actuelle https://www.reddit.com/r/MachineLearning/comments/3dz3fl/dl_architectures_for_entity_recognition_and_other/

Hope that helps.