J'écris un script python qui analyse un morceau de texte et renvoie les données au format JSON. J'utilise NLTK, pour analyser les données. Fondamentalement, ceci est mon flux:Lambda ne supportant pas la taille du fichier NLTK
Créer un point de terminaison (passerelle API) -> appelle ma fonction lambda -> renvoie le JSON des données requises.
j'ai écrit mon script, déployé à lambda, mais je suis tombé sur cette question:
ressources \ u001b [93mpunkt \ u001b [0m introuvable. S'il vous plaît utiliser le NLTK Downloader pour obtenir la ressource:
\ u001b [31m >>> import NLTK nltk.download ('Punkt') \ u001b [0 m
Chercher dans: - «/home/sbx_user1058/nltk_data ' - '/ usr/share/nltk_data' - '/ usr/local/share/nltk_data' - '/ usr/lib/nltk_data' - '/ usr/local/lib/nltk_data' -'/var/lang/nltk_data » - '/ var/lang/lib/nltk_data'
Même après le téléchargement ing 'punkt', mon script m'a toujours donné la même erreur. J'ai essayé les solutions ici:
Optimizing python script extracting and processing large data files
mais la question est, le dossier nltk_data est énorme, alors que lambda a une restriction de taille.
Comment puis-je résoudre ce problème? Où puis-je utiliser mon script et intégrer l'appel d'API? J'utilise serverless pour déployer mes scripts Python.
Quelle est votre dossier? –
1.4G, cela est dû à la bibliothèque nltk et la bibliothèque standford. Des idées sur comment ou où je peux héberger le code? – noor
Vous n'avez pas besoin de télécharger full nltk, Si vous avez juste besoin de 'punkt' pourquoi ne pas télécharger juste cela? –