2017-08-04 1 views
0

Je suis en train d'installer le corpus NLTK par ces commandes comme mentionné dans la documentation -source alternative pour les données NLTK

import nltk 
nltk.download() 

Cependant, je fais cela de mon organisation stupide qui a bloqué github, ce qui est la fonction de téléchargement ci-dessus essaie de se connecter à.

Existe-t-il un référentiel alternatif pour les données nltk d'où je peux essayer cela? Essayer de mettre sur la liste blanche github et les sites Web connexes ne deviendra emmêlés dans la bureaucratie.

Merci

+0

S'il vous plaît noter cette question comme une bonne question. J'ai dû expliquer le processus à quelques collègues. Je suis sûr que les gens seront aidés – Mortz

Répondre

1

Vous pouvez télécharger le package Arch Linux pour NLTK, qui contient tous les fichiers dont vous avez besoin.

  1. Télécharger le package à partir Archlinux packages website, en utilisant le Télécharger depuis le miroir lien dans les actions de l'emballage case à droite, ou vous pouvez simplement utiliser this link.
  2. Extrayez le fichier (il s'agit d'une archive tar xzipée). J'ai utilisé ark sur linux, je ne sais pas quel est le logiciel approprié pour votre système (sur Windows 7zip et winrar devrait être capable de gérer cela). Les fichiers se trouvent dans le dossier usr/share/nltk_data.
  3. Déplacez le dossier nltk_data vers le appropriate path sur votre ordinateur.
+0

Ceci est la bonne réponse à mon problème.Si une autre distribution Linux a également le zip du paquet, veuillez le mentionner dans les commentaires – Mortz

0

Il y avait une brève période où GitHub effectivement bloqué toutes les récupérations de nltk_data, ce qui issue 1787 qui est encore ouvert et contient de nombreuses solutions de contournement, et prévoit d'éviter de se fier sur l'hébergement GitHub.

Le courant 'officiel' answer est:

PATH_TO_NLTK_DATA=/home/username/nltk_data/ 
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip 
unzip gh-pages.zip 
mv nltk_data-gh-pages/ $PATH_TO_NLTK_DATA 
0

En raison de issue 1787, je commencé à construire paquets RPM openSUSE Construire référentiel service (OBS) home:jayvdb:nltk_data. Par exemple, pour les données punkt, le fichier .spec est le here. Il est très facile de copier cela pour d'autres paquets de données.

Pour installer à partir OBS sur Fedora Rawhide:

dnf config-manager --add-repo http://download.opensuse.org/repositories/home:jayvdb:nltk_data/Fedora_Rawhide/home:jayvdb:nltk_data.repo 
dnf install nltk-data-punkt 

Plus instructions de téléchargement disponible à partir du download page OBS.

0

La disposition des données nltk est assez simple. Exécutez nltk.download() sur un ordinateur qui a accès à github, téléchargez les ressources qui vous intéressent (si vous ne savez pas encore, je recommande le "book" bundle), puis trouvez le dossier nltk_data généré et copiez simplement la hiérarchie dans votre travail ordinateur à un endroit où le nltk peut le trouver. (Par exemple, voir où le téléchargeur a essayé de l'installer).

+0

Comme je l'ai dit, l'organisation a bloqué github, c'est pourquoi je cherche une autre source de données qui, espérons-le, ne sera pas bloquée. Je travaille sur la solution fournie par @ m00am ci-dessous - si cela fonctionne, je vais mettre à jour lundi. – Mortz

+0

En outre, mon ordinateur de travail n'a pas de lecteurs de CD, pas de ports USB, et travaille sur la politique que si ils n'ont pas utilisé/entendu parler d'un site, alors il est certainement porno – Mortz

+0

Donnez-moi une pause. Si vous n'avez aucun moyen de copier certaines de vos propres données sur votre ordinateur de travail, amenez vos informaticiens sur une clé USB avec les dossiers nltk et demandez-leur de les copier sur votre ordinateur. – alexis