2017-10-21 68 views
0
#First, I divide the age group as follow , 
# 1. group A: 0-17years old; 
# 2. group B: 18-35years old 
# 3. group C: 36-50years old 
# 4. group D: 51-65years old 
# 5. group E: above 66 years old 


#Then I begin to write code extact the CVC data 

Passenger_Age={"PassengerId":titanic["PassengerId"][:],"Age":titanic["Age"][:]} 

Passenger_Age_df = pd.DataFrame(Passenger_Age,columns =["Age","PassengerId"]) 

Passenger_Survived={"PassengerId":titanic["PassengerId"[:],"Survived":titanic["Survived"][:]} 

Passenger_Survived_df = pd.DataFrame(Passenger_Survived,columns = ["Survived","PassengerId"]) 

# consider there are some NAN in Age, so wirte the blow cod to drop the Age data 

cleaned_Passenger_Age_df = Passenger_Age_df.dropna() 

A propos de l'étape suivante, je voudrais fusionner deux données, "nettoyé_Passeur_Age_df" et "Passenger_Survived_df".
Après cela, utilisez applymap fonction pour convertir l'âge ABCDE
ensuite selon que pour trouver le taux survécu des groupes d'âge
mon problème est SMY idée est claire, mais je ne sais pas écrire le code, quelqu'un pourrait-il aider moi? THX!Analyse de la corrélation entre le groupe d'âge et le taux de survie

Répondre

0

Vous pouvez utiliser pd.cut() pour regrouper l'âge, par exemple:

group_names = ['A','B','C','D','E'] 
bins = [0,17,35,50,65,1000] 
df['Age_Group'] = pd.cut(df['Age'], bins=bins, labels=group_names) 

Plus de détails: pandas.cut

En ce qui concerne le calcul de taux survécu, vous pouvez simplement utiliser un groupe par, comme:

df.groupby(['Age_Group','Survived']).count()/total_numbers