J'ai une fonction que je l'ai fait pour gratter les données de la table d'une longue liste d'URL (statistiques de baseball). Chaque entrée d'URL contient une table unique pour un seul lecteur, avec plusieurs lignes de données. Les lignes de chaque URL représentent toutes les saisons de la carrière d'un joueur. Le paramètre d'entrée est, bien sûr, une liste de toutes les URL que je suis en train de gratter. Ainsi, la liste globale des listes de listes contient des données statistiques de plusieurs lecteurs. Pour chaque joueur, nous avons plusieurs lignes représentant toutes les années de leur carrière.Utiliser une fonction pour ajouter un identificateur unique à chaque sous-liste dans une liste de listes produite?
Toutes les URL proviennent du même domaine, mais avec des extensions différentes. Liste Exemple:
input_list = ['www.baseball.com/BarryBonds01', 'www.baseball.com/JohnRSmith01', 'www.baseballl.com/MickyJMantle01', 'www.baseball.com/JohnJSmith02, www.baseball.com/MickySMantle02]
Cependant, les tableaux de chaque page d'URL ne contient pas d'identifiant unique. Ainsi, lorsque je crée la liste finale des listes de listes et la base de données finale, j'ai une longue liste de colonnes avec toutes mes données mais rien qui identifie de façon unique chaque sous-liste dans la base de données globale.
Comment puis-je ajouter un identifiant unique pour chaque sous-liste (pour chaque lecteur)? Un identifiant idéal serait l'extension de l'URL, mais je n'arrive pas à comprendre le code pour y arriver.
Actuellement, ma liste de sortie des listes de listes ressemble à quelque chose comme ceci (chaque liste de listes dans la liste élargie des listes de listes est un seul joueur):
output_list = [[[45, 54, 23, 23], [44, 22, 11, 55]], # Player A
[[32, 23, 54, 23], [223, 44, 55, 66], [23, 67, 74, 24]], # Player B
[[32, 46, 77, 44], [24, 65, 24, 44]], # Player C
[[23, 2, 5, 7], [22, 455, 44, 332]], # Player D
[[33, 33, 22, 55], [88, 2, 4, 66], [1, 0, 0, 8], [3, 3, 5, 6]]] # Player E
La figure de sortie, cependant, regards comme ceci - sans identification des données de ligne appartenant à des joueurs particuliers.
Voici une meilleure représentation de ma liste de sortie:
output_list = [[45, 54, 23, 23], [44, 22, 11, 55], # Player A
[32, 23, 54, 23], [223, 44, 55, 66], [23, 67, 74, 24], # Player B
[32, 46, 77, 44], [24, 65, 24, 44], # Player C
[23, 2, 5, 7], [22, 455, 44, 332], # Player D
[33, 33, 22, 55], [88, 2, 4, 66], [1, 0, 0, 8], [3, 3, 5, 6]] # Player E
On dirait que vous voulez un dictionnaire qui stocke les URL comme la clé (ou au moins l'extension unique de l'URL de base), et les données en tant que valeur. Sans plus d'infos, il n'est pas vraiment possible d'y répondre. – roganjosh
J'ai ajouté des informations clarifiant afin de rendre ma question plus facile à comprendre. Je vous remercie! – TJE
Veuillez fournir un exemple de ce que votre sortie désirée ressemblerait. –