0

Dans l'un des projets, nous avons des fichiers html stockés dans la base de données oracle mais nous pouvons le conserver aussi bien dans les fichiers que dans une base de données NOSQL . Nous recevons des mots-clés et, en fonction de ceux-ci, nous devons trouver des sections pertinentes dans ces fichiers. Ces fichiers sont déclaration de l'entreprise de base, articles de presse, rapports financiers, etc. maintenant besoin de trouver différentes sections disons concernant ci-dessous les catégories:Extrait des sections ou paragraphes pertinents d'un document basé sur le mot-clé

  • risque utilisant des mots clés tels que la criminalité, le vol, les litiges, accuser, etc.

  • classement Change utilisant des mots clés comme 'partiront', la nomination de certains officiers, 'Election du directeur', etc

  • droits des actionnaires en utilisant des mots-clés comme «droits des actionnaires», «actions en justice», «redressements financiers», etc

Il existe d'autres catégories et ils ont défini des mots-clés à rechercher. Donc, l'exigence est catégorie extrait la section/paragraphe qui sont MOST pertinente. L'accent est mis sur Haute précision pour trouver la section la plus pertinente. Si des technologies telles que Solr ou Elastic search ou Jackrabbit prévoient que nous sommes ouverts. Juste besoin de la bonne direction pour corriger la technologie-pile nécessaire ici.

Actuellement, nous essayons Oracle text search mais je crois que nous pourrions avoir une meilleure solution programmatique ainsi que l'utilisation de l'apprentissage automatique ou de la PNL ou une bibliothèque en Java qui ferait cela. Veuillez me donner quelques idées. Je suis un développeur java expérimenté et je travaille avec Machine Leaning et NLP. Je suis agnostique, donc une bonne solution en utilisant n'importe quelle langue ou technique est la bienvenue.

+0

Si vous avez vos données dans une base de données Oracle Texte qui vous fera énormément tarder.Apprenez à utiliser les fonctionnalités lexer et à personnaliser le thésaurus. Le gros avantage est que vous travaillez sur les données in situ en utilisant les fonctionnalités déjà payées par votre organisation. – APC

+0

@APC - Nous sommes ouverts aux nouvelles technologies. La recherche de texte d'Oracle AFAIK fournit juste le score de pertinence parmi différents documents PAS dans différentes sections/paragraphes du document. Aussi, je crois que la solution basée sur Java serait disponible dans la communauté open source et que cette fonction serait déjà utile pour savoir laquelle et comment démarrer. – nanosoft

Répondre

0

La direction que vous semblez suivre pour cette question est une de recherche de mots/expressions [facile] vs recherche sémantique [difficile]. Il y a eu plusieurs personnes au fil des ans pour travailler sur de telles solutions [j'ai rencontré des gens d'une société écossaise qui construisaient une solution basée sur Java, mais je ne me souviens pas du nom]. Là où vous avez des problèmes avec la recherche sémantique, c'est qu'il y a tellement de domaines problématiques [et de taxonomies très pertinentes dans le domaine] où la sémantique est très différente pour les mêmes mots ou expressions. Ensuite, bien sûr, certaines personnes facilitent le travail «sémantique» en méta-taggeant les données (exemples: images, vidéo, documents complexes), puis en recherchant les méta-données. Quand j'étais Architecte d'entreprise il y a quelques années, nous utilisions Verity pour Google. Je n'ai aucune idée si c'est encore un produit, mais il a exploité Oracle Text et superposé son code sur cela. À l'époque, l'état de l'art était ce que Forester Research appelait «Connexion de données, de contenu et de texte avec l'abstraction organique de l'information», mais je ne sais pas où en est l'état actuel de la pratique.

Je parie que Google pourrait avoir quelques outils que vous pourriez utiliser :).

Cela ressemble à un projet amusant !!!

+0

Verity a été repris par Autonomy. Par la suite HP a acheté par Autonomy pour un prix élevé controversé. Le kerfuffle résultant a conduit à des enquêtes et des démissions, et qui sait si les produits sont encore utilisés? – APC