2017-07-11 4 views
0

D'abord, merci pour l'aide que j'ai commencé à apprendre à coder il y a quelques jours, alors j'apprécie l'aide!Trouver l'emplacement de l'entreprise sur le site Web

Donc, fondamentalement, j'ai une liste d'URL de la société et je veux trouver où ils se trouvent. Ce que je pensais faire était d'utiliser urllib2 et BeautifulSoup pour obtenir tout le texte à partir des urls et ensuite chercher dans ce texte pour trouver soit la Californie, le Massachusetts, New York, etc et l'avoir imprimer celui qu'il trouve dans un document que je peux mettre en Excel. Jusqu'à présent, j'ai écrit le code ci-dessous qui me donne un ensemble de texte, mais je n'ai aucune idée de comment le chercher, comment le faire avec plusieurs URL, ou comment imprimer cette information dans un format lisible par Excel.

Merci!

import urllib2 
import re 
from bs4 import BeautifulSoup 


links = urllib2.urlopen('http://www.coolcomposites.com/') 
html = links.read() 
soup = BeautifulSoup(html, "html.parser") 
locations = ["Boston", "MA"] 
file_text = soup.get_text() 
print (file_text) 
+0

Ma réponse a-t-elle été utile? Si oui, veuillez voter et marquer comme réponse afin que votre question puisse être classée .. Bonne codification, acclamations mec :) – eshirima

Répondre

0

Vous devez parcourir la liste locations et vérifier si chaque entrée existe dans file_text.

for loc in locations: 
    if loc in file_text: 
    print ("Found location") 
    else: 
    print ("Location not found") 

Watch Out

1.

capitalisante

bâton avec une représentation de locations. Soit tout est en minuscules, en haut ou en haut en premier puis en bas etc. Le point est, ne le mélangez pas parce que l'implémentation ci-dessus n'est pas sensible à la casse donc MA != ma != Ma != mA. Par exemple, si vous choisissez des minuscules pour locations, convertissez file_text en minuscules.

2. détection du point à mi

En locations, vous avez inclus MA. Cela sera également détecté dans tout texte composé de MA en ce qui concerne son emplacement. Pensez aux moyens possibles de surmonter ce problème.