데이터 사이언스

Yuno·2025년 3월 8일

데이터 사이언스

목록 보기
1/25

1️⃣ 데이터 사이언스란?

  • 정의 : 데이터를 기반으로 의미 있는 패턴을 발견하고, 예측과 최적화를 통해 의사 결정을 돕는 학문
  • 목적
    • 데이터에서 정보를 추출하여 가치 창출
    • 통찰력을 얻고 문제 해결 능력 향상
    • 인공지능(AI), 머신러닝(ML), 통계 등의 기술을 활용하여 분석 수행

2️⃣ 데이터 분석의 주요 프로세스

  1. 문제 정의 : 해결하고자 하는 문제를 설정 (예: 고객 구매 패턴 분석)
  2. 데이터 수집 : 필요 데이터를 확보 (예: 구매 기록, 고객 연령대)
  3. 데이터 전처리 : 결측값 처리, 정제, 구조화
  4. 탐색적 데이터 분석 (EDA) : 데이터의 분포 및 특징 분석
  5. 모델링 : 머신러닝, 통계 기법을 활용하여 분석
  6. 평가 및 검증 : 분석 결과를 검토하고 개선
  7. 결과 적용 : 인사이트 도출 및 의사 결정에 활용

3️⃣ 통계적 기반 지식

  • 기본 개념
    • 평균, 분산, 표준편차, 중앙값, 최빈값
    • 기술통계(Descriptive Statistics) : 데이터의 요약 및 특성 분석
    • 추론통계(Inferential Statistics) : 모집단의 특성을 표본으로부터 추론
  • 데이터 유형
    • 정형 데이터 : 표, DB에 저장된 구조화된 데이터 (예: 고객 정보, 상품 리스트)
    • 비정형 데이터 : 텍스트, 이미지, 영상 등 구조화되지 않은 데이터 (예: SNS 댓글, 음성 데이터)
  • 데이터 속성
    • 범주형 데이터(Categorical Data) : 성별, 혈액형, 만족도 (순서형/명목형)
    • 수치형 데이터(Numerical Data) : 키, 몸무게, 시험점수 (이산형/연속형)
  • 독립변수와 종속변수
    • 독립변수 : 결과에 영향을 미치는 변수 (예: 공부시간)
    • 종속변수 : 독립변수에 의해 변화하는 변수 (예: 시험시간)

4️⃣ 데이터 사이언스의 가치

  • 데이터 활용 사례
    • 인터넷 쇼핑몰 고객 구매 패턴 분석 -> 마케팅 최적화
    • 의료 데이터 분석 -> 질병 예측 및 치료 최적화
    • 금융 데이터 분석 -> 신용 평가 및 부정 거래 탐지
  • 데이터 기반 경제
    • 데이터는 새로운 자원(빅데이터 -> AI -> 비즈니스 혁신)
    • 유튜브 추천 알고리즘, 쿠팡 상품 추천 등 데이터 활용 극대화

5️⃣ 빅데이터와 분석 기법

  • 빅데이터의 특징 (5V)
    • Volume (크기) : 방대한 데이터량
    • Velocity (속도) : 데이터 생성 속도
    • Variety (다양성) : 정형/비정형 데이터 포함
    • Veracity (정확성) : 데이터 품질 확보 필요
    • Value (가치) : 데이터가 창출하는 경제적 가치
  • 주요 분석 기법
    • 회귀 분석(Regression) : 변수 간 관계 분석
    • 군집 분석(Clustering) : 유사한 그룹 탐색
    • 분류(Classification) : 특정 범주로 데이터 분류
    • 연관 분석(Association) : 상품 구매 패턴 분석 (예: 장바구니 분석)
profile
Hello World

0개의 댓글