11일차 연습문제(수정중)

송용진·2024년 3월 7일
  • 연습문제
    • 연습 문제 1: 타이타닉 생존자 분석
      • 데이터셋: 타이타닉 승객 데이터 (Kaggle에서 제공: Titanic: Machine Learning from Disaster https://www.kaggle.com/competitions/titanic)
      • 목표 승객의 생존 여부를 분석하고, 어떤 요소가 생존에 가장 큰 영향을 미쳤는지 탐색합니다.
      • 과제:
        1. 데이터를 로드하고, 상위 5개 행을 출력하세요.
        2. 승객의 나이, 성별, 티켓 클래스별 생존율을 계산하세요.
        3. 'Embarked' 항구별 승객 수를 계산하세요.
      • 송용진의 코드
        import pandas as pd
        import numpy as np
        
        # 1-1 데이터 로드
        df = pd.read_csv('train.CSV', encoding = 'cp949')
        
        # 1-2 상위 5개 행 출력
        # df.head(5)
        
        # pd.DataFrame(df)
        # df.describe()
        
        # 연령별 생존율
        # print(df["Age"].min())
        # print(df["Age"].max())
        # age_range = [(0 + 10 * i, 9 + 10 * i) for i in range(9)]
        
        # for a,b in age_range:    
        #     print(f"""{a}~{b}세의 생존율 : {df[(a <= df["Age"]) & (df["Age"] <= b)].describe().loc['mean','Survived']}""")
        
        # 성별 별 생존율
        # genders = df['Sex'].unique()
        # print(genders)
        # for i in genders:
        #     print(f"""{i}의 생존율 : {df[df['Sex'] == i].describe().loc['mean','Survived']}""")
        
        #티켓 클래스별 생존율
        # classes = df['Pclass'].unique()
        # for i in classes:    
        #     print(f"""Pclass {i}의 생존율 : {df[df['Pclass'] == i ].describe().loc['mean','Survived']}""")
        
        # 'Embarked' 항구별 승객 수
        port = df['Embarked'].unique()
        for i in port:
            if not pd.isna(i):
                print(f"""{i} 항구에서 탑승한 승객의 생존율 : {df[df['Embarked'] == i ].describe().loc['mean','Survived']}""")
    • 연습 문제 2: 주식 데이터 분석
profile
개발자

0개의 댓글