1️⃣ 데이터 사이언스란?
- 정의 : 데이터를 기반으로 의미 있는 패턴을 발견하고, 예측과 최적화를 통해 의사 결정을 돕는 학문
- 목적
- 데이터에서 정보를 추출하여 가치 창출
- 통찰력을 얻고 문제 해결 능력 향상
- 인공지능(AI), 머신러닝(ML), 통계 등의 기술을 활용하여 분석 수행
2️⃣ 데이터 분석의 주요 프로세스
- 문제 정의 : 해결하고자 하는 문제를 설정 (예: 고객 구매 패턴 분석)
- 데이터 수집 : 필요 데이터를 확보 (예: 구매 기록, 고객 연령대)
- 데이터 전처리 : 결측값 처리, 정제, 구조화
- 탐색적 데이터 분석 (EDA) : 데이터의 분포 및 특징 분석
- 모델링 : 머신러닝, 통계 기법을 활용하여 분석
- 평가 및 검증 : 분석 결과를 검토하고 개선
- 결과 적용 : 인사이트 도출 및 의사 결정에 활용
3️⃣ 통계적 기반 지식
- 기본 개념
- 평균, 분산, 표준편차, 중앙값, 최빈값
- 기술통계(Descriptive Statistics) : 데이터의 요약 및 특성 분석
- 추론통계(Inferential Statistics) : 모집단의 특성을 표본으로부터 추론
- 데이터 유형
- 정형 데이터 : 표, DB에 저장된 구조화된 데이터 (예: 고객 정보, 상품 리스트)
- 비정형 데이터 : 텍스트, 이미지, 영상 등 구조화되지 않은 데이터 (예: SNS 댓글, 음성 데이터)
- 데이터 속성
- 범주형 데이터(Categorical Data) : 성별, 혈액형, 만족도 (순서형/명목형)
- 수치형 데이터(Numerical Data) : 키, 몸무게, 시험점수 (이산형/연속형)
- 독립변수와 종속변수
- 독립변수 : 결과에 영향을 미치는 변수 (예: 공부시간)
- 종속변수 : 독립변수에 의해 변화하는 변수 (예: 시험시간)
4️⃣ 데이터 사이언스의 가치
- 데이터 활용 사례
- 인터넷 쇼핑몰 고객 구매 패턴 분석 -> 마케팅 최적화
- 의료 데이터 분석 -> 질병 예측 및 치료 최적화
- 금융 데이터 분석 -> 신용 평가 및 부정 거래 탐지
- 데이터 기반 경제
- 데이터는 새로운 자원(빅데이터 -> AI -> 비즈니스 혁신)
- 유튜브 추천 알고리즘, 쿠팡 상품 추천 등 데이터 활용 극대화
5️⃣ 빅데이터와 분석 기법
- 빅데이터의 특징 (5V)
- Volume (크기) : 방대한 데이터량
- Velocity (속도) : 데이터 생성 속도
- Variety (다양성) : 정형/비정형 데이터 포함
- Veracity (정확성) : 데이터 품질 확보 필요
- Value (가치) : 데이터가 창출하는 경제적 가치
- 주요 분석 기법
- 회귀 분석(Regression) : 변수 간 관계 분석
- 군집 분석(Clustering) : 유사한 그룹 탐색
- 분류(Classification) : 특정 범주로 데이터 분류
- 연관 분석(Association) : 상품 구매 패턴 분석 (예: 장바구니 분석)