Je travaille sur le nettoyage d'un nom de domaine.PANDAS DROP ROWS basé sur des éléments filtrés, ma solution - pas satisfait
Je souhaite supprimer certaines lignes qui correspondent à un critère. J'ai réussi à identifier les premiers critères, le second sera facile à faire.
Cependant, je ne peux pas supprimer les lignes. J'ai essayé plusieurs solutions mais le meilleur que j'ai est le suivant.
from wordsegment import segment
import pandas as pd
def assignname():
dfr = pd.read_csv('data.net.date.csv')
for domainwtld in dfr.domain:
dprice = dfr.price
domainwotld = domainwtld.replace(".net", "")
seperate = wordsegment.segment(domainwotld)
dlnt = (min(seperate, key=len))
slnt = len(dlnt)
if slnt <= 1:
baddomains = domainwtld
a = dfr.loc[dfr['domain'] < (baddomains)]
print (a)
Quand je lance ce code, je reçois une sortie qui après avoir abandonné le premier élément « baddomains », imprime l'élément entier dans « DFR ». Il le fait jusqu'à ce que la boucle soit complète.
Comment puis-je filtrer le fichier csv "original" basé sur les baddomains?
vous pouvez essayer d'utiliser .isin si DFR [ 'domain'] est une correspondance exacte à votre baddomains dfr.loc [~ DFR [ 'domain'] code ISIN (de baddomains_list).] –
merci mais TypeError: seule liste -like objets sont autorisés à être transmis à isin(), vous avez passé un [str] – user970155
Peut-être que vous pouvez fournir des exemples de données? – Alexander