1) 논리 데이터
True(1), False(0)
참이나 거짓을 표시하는 데이터
논리 함수에 주로 사용됨
2) 논리 함수
주어진 조건에 따라 참 또는 거짓을 반환
IF 함수, AND, OR, NOT 함수 등이 포함
3) 수식 데이터
=1+2+3, =SUM(A1,A2)
함수 혹은 수식으로 구성된 데이터
4) 집계 함수
여러 개의 입력을 받아 하나의 결과물 출력
SUM, MAX, MIN, AVERAGE 등의 함수
1) AND, OR

OR : 인수로 사용되는 논리식과 논리값 중 어느 하나라도 TRUE이면 TRUE 반환

2) IF
가장 많이 사용하는 excel 함수 중 하나
특정 값과 예상 값을 비교하여 결과 도출 가능
참, 거짓일 경우의 반환값을 지정하여 결과 반환
➡️ =IF(조건, TRUE(참), FALSE(거짓))
➡️ 조건이 참일 때와 거짓일 때의 결과 값을 지정
예시 - 평균점수가 80 이상이라면 합격, 아니면 불합격
➡️ = IF(평균 > 80, "합격", "불합격")

함수의 다중사용
➡️ IF문의 주업 사용 또는 다른 함수와의 사용을 통한 예시
➡️ 예시 - 실기,필기 점수가 모두 60이 넘는다면 합격, 아니면 불합격
➡️ = IF(AND(실기 > 60, 필기 > 60), "합격", "불합격")

1) SUM
모든 범위 값의 합계를 계산함
=SUM(A1:A4) ➡️ A1부터 A4까지의 합을 계산
2) MAX
모든 범위 중의 최대값을 검색함
=MAX(A1:A4) ➡️ A1부터 A4까지 중 최대값 검색
3) MIN
모든 범위 중의 최소값을 검색함
=MIX(A1:A4) ➡️ A1부터 A4까지 값 중 최소값 검색
4) AVERAGE
모든 범위 값의 평균값을 계산함
=AVERAGE(A1:A4) ➡️ A1부터 A4까지 값의 평균값 계산

by 손현곤 강사님
1) 타이타닉 문제
🔗 https://www.kaggle.com/competitions/titanic
데이터 전처리
train, test 데이터 병합하여 한번에 전처리
결측치 확인
➡️ Age, Cabin(객실 번호), Fare, Embarked(탑승 항구), Survived
➡️ Age, Fare는 평균값으로 결측치 보완
➡️ Cabin, Embarked, Survived는 최빈값으로 결측치 보완
범주형 변수 처리
➡️ 범주형 변수는 일반적으로 문자열 형태로 표현되며, 텍스트로 된 데이터는 대부분의 머신러닝 알고리즘이 바로 처리할 수 없음. 따라서 범주형 변수를 수치형 변수로 변환 필요.
➡️ Sex, Embarked, Pclass(객실 등급) 는 원-핫 인코딩
불필요한 특성 제거
➡️ Name', 'Ticket', 'Cabin' 제거함.
전처리 끝난 후, train과 test 데이터 다시 분리함.
모델
1) 로지스틱 회귀
2) 앙상블 모델(로지스틱 회귀, 랜덤포레스트, 그래이디언트 부스팅)
최종적으로 0.8정도 성능 얻음. 추후 성능 개선 필요

2) EPL 승부예측 문제
🔗https://www.kaggle.com/t/a1af77e8d54341108f8943ec5df06a40
3) 와인 분류 문제
🔗 https://www.kaggle.com/t/ffdfaff5fb084dadb0b0481c28cd9084