python lire tous les fichiers d'un dossier et écrire le nom du fichier et d'autres informations dans un fichier txt

J'ai 30911 fichiers html. Je dois faire le webscraping et alors enregistrer les informations dans un fichier txt nommé index.txt. Il devrait ressembler àpython lire tous les fichiers d'un dossier et écrire le nom du fichier et d'autres informations dans un fichier txt

filename1, title, t1, date, p1 
filename2, title, t1, date, p1 
filename3, title, t1, date, p2 
and so on...

Je veux que le nom de fichier, mais la sortie m'a donné chemin + nom de fichier.

Source

2017-05-29 Michael Lin

Votre problème est que le nom de fichier est filepath en réalité, afin d'obtenir le nom du fichier, vous pouvez utiliser le module os

os.path.basename('filepath')

donc pour écrire le fichier:

indexFile.write(os.path.basename(filename)+ ', ' + title.get_text(strip=True) + ', '+ ticker.get_text(strip=True) + ', ' + d_date.get_text(strip=True) + ', ' + parti_names + '\n')

Source

2017-05-29 07:17:16

comment puis-je l'appliquer à mon code? –

J'ai ajouté comment l'utiliser –

pour le nom de fichier dans glob.glob (os.path.join (chemin, '* .html')): print os.path.basename (filename) –

Vous pouvez utiliser:

path = 'C:/Users/.../.../output/' 
#read html files 
for filename in glob.glob(os.path.join(path, '*.html')): 
    soup = bs4.BeautifulSoup(open(filename).read(), "lxml") 
    title = soup.find('h1') 
    ticker = soup.find('p') 
    d_date = soup.find_all('div', {"id": "a-body"})[0].find_all("p")[2] 

    try: 
     def find_participant(tag): 
      return tag.name == 'p' and tag.find("strong", text=re.compile(r"Executives|Corporate Participants")) 

     participants = soup.find(find_participant) 
     parti_names = "" 
     for parti in participants.find_next_siblings("p"): 
      if parti.find("strong", text=re.compile(r"(Operator)")): 
       break 
      parti_names += parti.get_text(strip=True) + "," 
    except: 
     indexFile = open('C:/Users/.../output1/' + 'index.txt', 'a+') 
     indexFile.write(filename + ', ' + title.get_text(strip=True) + ', '+ ticker.get_text(strip=True) + ', ' + d_date.get_text(strip=True) + ', ' + 'No participants' + '\n') 
    else: 
     participants = soup.find(find_participant) 
     parti_names = "" 
     for parti in participants.find_next_siblings("p"): 
      if parti.find("strong", text=re.compile(r"(Operator)")): 
       break 
      parti_names += parti.get_text(strip=True) + "," 
     indexFile = open('C:/Users/.../output1/' + 'index.txt', 'a+') 
     indexFile.write(os.path.basename(filename) + ', ' + title.get_text(strip=True) + ', '+ ticker.get_text(strip=True) + ', ' + d_date.get_text(strip=True) + ', ' + parti_names + '\n') 
     indexFile.close()

Source

2017-05-29 07:14:31

Comment puis-je l'appliquer à mon code? –

J'ai modifié mon message. J'espère que cela vous aide. –

ntpath est un autre mod ule utilisé pour obtenir le nom de base du chemin.

>>> import ntpath 
>>> ntpath.basename('C:/Users/.../output1/' + 'index.txt') 
'index.txt'

Source

2017-05-29 07:31:40

python lire tous les fichiers d'un dossier et écrire le nom du fichier et d'autres informations dans un fichier txt

Répondre

Questions connexes