2017-06-30 1 views
0

J'ai importé tous les livres de la bibliothèque du livre NLTK, et j'essaie juste de comprendre comment définir un corpus puis une phrase à imprimer.Python - spécifie le corpus de la phrase sur laquelle exécuter une fonction?

Par exemple, si je voulais imprimer phrase 1 du texte 3, puis la phrase 2 du texte 4

import nltk 
from nltk.book import * 
print(???) 
print(???) 

J'ai essayé les combinaisons ci-dessous, qui ne fonctionnent pas:

print(text3.sent1) 
print(text4.sent2) 

print(sent1.text3) 
print(sent2.text4) 

print(text3(sent1)) 
print(text4(sent2)) 

Je suis novice en python, donc c'est probablement une question de base, mais je n'arrive pas à trouver la solution ailleurs.

Merci beaucoup, à l'avance!

Répondre

-1

Vous devez d'abord scinder les textes en listes de phrases.

Si vous avez déjà text3 et text4:

from nltk.tokenize import sent_tokenize 

sents = sent_tokenize(text3) 
print(sents[0]) # the first sentence in the list is at position 0 

sents = sent_tokenize(text4) 
print(sents[1]) # the second sentence in the list is at position 1 

print(text3[0]) # prints the first word of text3 

Vous semblez avoir besoin à la fois un tutoriel NLTK et un tutoriel python. Heureusement, the NLTK book est à la fois.

+0

Merci beaucoup! Je travaille actuellement sur le livre NLTK - il est utile pour les nouveaux utilisateurs de python et de NLTK. – LdnTky1985

+0

@ LdnTky1985, pourquoi avez-vous accepté cette réponse? Le conseil de lire quelques tutoriels est bon, mais le code est incorrect et provoque même une erreur. – alexis

0

exemple simple peut être donné comme:

from nltk.tokenize import sent_tokenize 

# List of sentences 
sentences = "This is first sentence. This is second sentence. Let's try to tokenize the sentences. how are you? I am doing good" 

# define function 
def sentence_tokenizer(sentences): 

    sentence_tokenize_list = sent_tokenize(sentences) 

    print "tokenized sentences are = ", sentence_tokenize_list 
    return sentence_tokenize_list 

# call function 
tokenized_sentences = sentence_tokenizer(sentences) 
# print first sentence 
print tokenized_sentences[0] 

Hope this helps.