[데이터분석 데브코스] TIL Day 8 - Excel을 이용한 다양한 데이터 분석 실습 (3)

콩이·2024년 2월 28일

📍 Excel 데이터 소개 및 함수 사용

Excel 데이터 종류

1) 논리 데이터

  • True(1), False(0)

  • 참이나 거짓을 표시하는 데이터

  • 논리 함수에 주로 사용됨

2) 논리 함수

  • 주어진 조건에 따라 참 또는 거짓을 반환

  • IF 함수, AND, OR, NOT 함수 등이 포함

3) 수식 데이터

  • =1+2+3, =SUM(A1,A2)

  • 함수 혹은 수식으로 구성된 데이터

4) 집계 함수

  • 여러 개의 입력을 받아 하나의 결과물 출력

  • SUM, MAX, MIN, AVERAGE 등의 함수

알아두면 좋은 Excel 논리 함수

1) AND, OR

  • AND : 인수로 사용되는 논리식과 논리값들이 모두 TRUE이면 TRUE 반환
    • 예시 - 필기, 실기 점수 모두 80점이 넘었는가?
      ➡️ = AND(필기 > 80, 실기 > 80)
  • OR : 인수로 사용되는 논리식과 논리값 중 어느 하나라도 TRUE이면 TRUE 반환

2) IF

  • 가장 많이 사용하는 excel 함수 중 하나

  • 특정 값과 예상 값을 비교하여 결과 도출 가능

  • 참, 거짓일 경우의 반환값을 지정하여 결과 반환
    ➡️ =IF(조건, TRUE(참), FALSE(거짓))
    ➡️ 조건이 참일 때와 거짓일 때의 결과 값을 지정

  • 예시 - 평균점수가 80 이상이라면 합격, 아니면 불합격
    ➡️ = IF(평균 > 80, "합격", "불합격")

  • 함수의 다중사용
    ➡️ IF문의 주업 사용 또는 다른 함수와의 사용을 통한 예시
    ➡️ 예시 - 실기,필기 점수가 모두 60이 넘는다면 합격, 아니면 불합격
    ➡️ = IF(AND(실기 > 60, 필기 > 60), "합격", "불합격")

알아두면 좋은 Excel 집계 함수

1) SUM

  • 모든 범위 값의 합계를 계산함

  • =SUM(A1:A4) ➡️ A1부터 A4까지의 합을 계산

2) MAX

  • 모든 범위 중의 최대값을 검색함

  • =MAX(A1:A4) ➡️ A1부터 A4까지 중 최대값 검색

3) MIN

  • 모든 범위 중의 최소값을 검색함

  • =MIX(A1:A4) ➡️ A1부터 A4까지 값 중 최소값 검색

4) AVERAGE

  • 모든 범위 값의 평균값을 계산함

  • =AVERAGE(A1:A4) ➡️ A1부터 A4까지 값의 평균값 계산

📍 [실시간] 데이터 분석 실습

by 손현곤 강사님

1) 타이타닉 문제
🔗 https://www.kaggle.com/competitions/titanic

  • 데이터 전처리

    • train, test 데이터 병합하여 한번에 전처리

    • 결측치 확인

      ➡️ Age, Cabin(객실 번호), Fare, Embarked(탑승 항구), Survived

      ➡️ Age, Fare는 평균값으로 결측치 보완

      ➡️ Cabin, Embarked, Survived는 최빈값으로 결측치 보완

    • 범주형 변수 처리

      ➡️ 범주형 변수는 일반적으로 문자열 형태로 표현되며, 텍스트로 된 데이터는 대부분의 머신러닝 알고리즘이 바로 처리할 수 없음. 따라서 범주형 변수를 수치형 변수로 변환 필요.

      ➡️ Sex, Embarked, Pclass(객실 등급) 는 원-핫 인코딩

    • 불필요한 특성 제거

      ➡️ Name', 'Ticket', 'Cabin' 제거함.

    전처리 끝난 후, train과 test 데이터 다시 분리함.

  • 모델
    1) 로지스틱 회귀

    • 성능이 대략 0.76정도 나왔으나 파라미터 바꿔봤으나 큰 변화가 없어서 앙상블 모델 사용.

    2) 앙상블 모델(로지스틱 회귀, 랜덤포레스트, 그래이디언트 부스팅)

    • 최종적으로 0.8정도 성능 얻음. 추후 성능 개선 필요

2) EPL 승부예측 문제
🔗https://www.kaggle.com/t/a1af77e8d54341108f8943ec5df06a40

  • 추후에 실습 예정

3) 와인 분류 문제
🔗 https://www.kaggle.com/t/ffdfaff5fb084dadb0b0481c28cd9084

  • 추후에 실습 예정

0개의 댓글