2011-06-22 1 views
0

Anglais détection de mot de chaîne + classement J'ai une grande base de données de urls et je veux extraire le mot anglais de ces données, puis classer les mots contenus dans l'URLAnglais classification mot

Par exemple apple.com -> pomme: fruits et application: ordinateur

Il existe d'autres scripts PHP pour que je les mots par chaîne, mais ce que je besoin d'aide est une source de données ouverte pour les mots anglais à la classification

par exemple ninja = art martial

La partie PHP les fait simplement une recherche. J'ai vu des scripts bayésiens pour classer le contenu d'une page, mais il s'agit plutôt de quelques mots ... et cela peut être plus complexe que ce qui est nécessaire.

Vive à l'avance,

+2

Je vous conseille d'y penser comme complétant la phrase "un est un ". Cela conduit à des classifications meilleures et sans doute plus utiles. Une pomme est un fruit. Une application est _not_ un ordinateur, elle n'est associée qu'à elle. Et un ninja est en fait un combattant. – Leif

+0

Etes-vous en train d'essayer de classer le contenu d'un site en utilisant la partie significative de son nom de domaine? Si oui, bonne chance. Votre faux taux de classification sera élevé. Par exemple, tapez "chaussures" dans google et voir le pourcentage de domaines dont les noms n'ont rien à voir avec le concept "shoe". – Tim

+0

Non c'est une liste de noms de domaine à vendre et en ayant des catégories, je peux les regrouper pour la vente par catégorie/tag ainsi que d'ajouter un "vous beaucoup aiment aussi" car ce sont d'énormes bases de données qu'il n'est pas pratique de faire à la main – Jaybest

Répondre

0

Vous devriez regarder Wordnet. C'est une ressource lexicale qui classe les mots en les regroupant avec leur ensemble de synonymes (synset). Cela devrait vous aider à obtenir une classification significative.