데이터를 통한 비즈니스 문제 해결 방법론문제를 정의하고 요인을 파악하기 위해 가설을 수립가설 수립 절차해결해야 할 문제 파악(y)y를 설명하기 위한 요소 파악(x)가설 구조 정의(x(요인)->y(목표))데이터 원본 식별 및 취득데이터 종류존재하는 데이터원본 그대로 사용
수립한 가설에서 x와 y 모두 '정보'라 부름데이터 종류범주형 데이터(질적 데이터, 정성적 데이터)명목형 데이터(ex) 성별, 주소 등)순서형 데이터(ex) 등급, 학년 등)수치형 데이터(양적 데이터, 정량적 데이터)이산형 데이터(ex) 나이, 통화량 등)연속형 데이터
중위수(median) : 자료의 순서상 가운데 위치한 값최빈값(mode) : 자료 중에서 가장 많은 값평균(mean)산술평균기하평균조화평균평균 사용 주의점디즈니 공주들의 평균 나이다른 공주들의 나이는 10대이나 '키다' 공주의 나이가 8800살이라 평균 나이대는 505
범주별 빈도수해당 값의 갯수 출력범주별 비율해당 값의 비율 출력sns.countplot()bar plot로 그래프 생성자동으로 범주 별 빈도수 계산plt.bar범주 별 빈도수 직접 계산해당 결과 직접 입력
1. 사용 가능 도구 산점도(Scatter) 값을 그대로 점을 찍어 표현 공분산(covariance), 상관계수(correlation efficient) 각 점들이 직선 상에 얼마나 모여있는 계산 2. 시각화 : 산점도
1. 평균과 분산, 표준편차 한 집단을 설명하기 위해, 대푯값으로 평균을 계산했을 경우, 값들이 평균으로부터 얼마나 벗어나 있는지를 나타내는 값(이탈도) $분산 = \frac{\sum (x-\bar{x})^2}{n}$ $표준편차 = \sqrt{\frac{\sum (x-\bar{x})^2}{n}}$ 2. 모집단과 표본 전국 모든 학생의 평균 몸무게를 조사할...
평균 비교범주의 갯수에 따라 비교 방법의 차이 존재※ 들어가기 전귀무가설 : 사회적으로 통용되어 있는 개념, 기존 개념대립가설 : 내가 주장하고 싶은 개념sns.barplot자동으로 평균 비교신뢰구간자동으로 95% 신뢰구간 표시그래프 위 검은 막대가 신뢰구간신뢰구간이
필요 라이브러리 사용데이터 : 이직 여부 판단 enrollee_id: 지원자 고유 ID city: 도시 코드 citydevelopmentindex: 도시 개발 지수 (척도) gender: 지원자의 성별 relevent_experience
사용 데이터 : diabetesPregnancies : 임신횟수Glucose : 포도당 부하 검사 수치BloodPressure : 혈압SkinThickness : 팔 삼두근 뒤쪽의 피하지방 측정값Insulin : 혈청 인슐린BMI : 체질량 지수DiabetesPedig
데이터에 시간 순서(sequence)가 존재하는 데이터일반 데이터는 데이터 간 순서에 의미가 없지만 시계열 데이터는 순서에 의미가 존재함같은 간격의 시간 순서로 존재시간(시기)를 고려어느 기간에 발생한 데이터인지반복되는 주기인지전날의 데이터가 다음 날에 영향을 주는가?