추천 시스템과 데이터 정규화

Yuno·2025년 5월 11일

데이터 사이언스

목록 보기
20/25

1️⃣ 추천의 핵심 개념

  • 추천이란?
    • 사용자의 특성, 과거 행동 등을 기반으로 맞춤형 정보를 제공하는 것
    • 정확성보다 사용자에게 맞는 정보가 중요
  • 추천의 한계점
    • 사용자의 정보가 충분하지 않으면 추천의 품질이 낮아짐
    • 개인화된 데이터가 필수적

2️⃣ 데이터 분석기법 개요

방법론설명특징주요 활용
CRISP-DM산업 간 표준 프로세스비즈니스 문제 해결 중심산업 전반적 사용
SEMMA샘플링, 탐색, 수정 등 분석 중심기술적 분석기법 중심통계 패키지 사용
KDDDB 기반 지식 발굴데이터베이스(DB) 기반Oracle DB 등 활용
  • 공통점: 데이터 수집 → 전처리 → 모델링 → 평가 과정 포함

3️⃣ CRISP-DM 프로세스 세부 설명

  • Business Understanding (비즈니스 이해)
    • 목적과 상황 파악, 분석 목표 설정
  • Data Understanding (데이터 이해)
    • 데이터 탐색, 수집 가능성 평가
  • Data Preparation (데이터 준비)
    • 정제, 선택, 생성, 통합 등 분석 준비
  • Modeling (모델링)
    • 분석 모델 생성 및 평가 반복 수행
  • Evaluation (평가)
    • 결과 평가, 모델의 적합성 검증
  • Deployment (배포)
    • 실제 운영 환경에 적용 및 모니터링, 관리 계획 수립

4️⃣ 데이터 정규화 (Normalization)

  • 데이터가 분석과 활용에 적합하도록 중복 제거 및 구조화하는 과정
  • 목적
    • 데이터의 무결성(정확성) 유지
    • 중복 제거 및 데이터 이상현상 방지

✨ 데이터 이상현상 (Anomalies)

이상 현상설명예시
삭제 이상불필요한 데이터까지 함께 삭제되는 현상주문 정보 삭제 시 회원 정보도 삭제됨
삽입 이상정보 부족으로 데이터 삽입 불가능 현상이름 없는 주소 데이터
갱신 이상데이터 갱신 시 일부만 갱신되어 정보 불일치마우스 단가 변경 시 일부만 갱신

✨ 함수적 종속성 (Functional Dependency)

  • 데이터 간의 관계를 나타냄 (A → B 형태)
  • A가 변하면 B도 따라 변함
종류설명
완전 함수 종속기본키 전체에 종속
부분 함수 종속기본키 일부에만 종속
이행적 종속A → B, B → C 관계에서 A → C 성립

5️⃣ 데이터 정규화의 원칙

  • 데이터의 중복성 제거
  • 정보의 무손실 유지
  • 분리 원칙(명확한 테이블 구조화)

6️⃣ 데이터 정규화 단계

단계특징설명
1차 정규화반복되는 속정 제거각 항목을 단일 원자값으로
2차 정규화부분적 종속 제거완전한 함수적 종속 유지
3차 정규화이행적 종속 제거직접적 종속관계만 유지
BCNF모든 결정자가 후보키가 되는 구조3차 이상의 엄격한 정규화
4차 정규화다중값 종속 제거다중값 속성을 별도 분리
5차 정규화결합 종속 제거관계성 간 결합의 독립성 유지
  • 대부분 3차 정규화까지로 실무적 정리 가능

7️⃣ 역정규화 (Denormalization)

  • 성능 향상을 위해 이미 정규화된 데이터를 다시 합치거나 분리하는 작업
방법설명
릴레이션 병합두 개 이상의 테이블을 합침
릴레이션 분할테이블을 사용 빈도에 따라 나눔 (수직﹒수평)
속성 역정규화검색 효율성을 위해 추가 속성 생성
profile
Hello World

0개의 댓글