멀티캠퍼스 백엔드 과정 63일차[9월 4일] - 데이터 저장 및 데이터 마이닝

GoldenDusk·2023년 9월 5일
0

데이터 저장 및 데이터 마이닝

🍐 데이터 엔지니어

  • 데이터 파이프라인을 구축하는 직무를 수행하는 엔지니어

🍐 Process

ETL Process

  • Extract(추출) , Transform(변환), Load(적재)
  • 여러 시스템의 데이터를 단일데이터베이스, 데이터저장소, 데이터 레이크 (데이터 웨어하우스)
    에 결합하는 방법

ELT Process

  • Extract(추출)-Load(적재)-Transform(변환)
  • 비정형 데이터에 대한 유연성 과 저장 용이성 처리하는 방법

🍐 관련 용어

1. 데이터 웨어하우스

  • 다양한 소스에서 발생하는 데이터를 하나의 통합된 형태로 저장하는 공간
  • 데이터는 설계된 스키마에 맞게 처리되어 저장된다.

2. 데이터 마켓

  • 특정 목적(팀/부서)을 위해 만들어진 데이터웨어하우스

3. 데이터 파이프라인

  • 데이터가 흐르는 모든 과정의 총칭(생성 변환 저장 )

4. 데이터 사이언티스트

  • 통계 분석, 기계학습 및 데이터 시각화를 사용해서 데이터에서 통찰력을 추출하는 전문가 집단
  • 크고 복잡한 빅데이터를 분석하여 추출한 인사이트를 활용하여 비지니스 의사결정을 내리는데
    필요한 정보를 만든다.
  • 데이터를 이해 , 데이터를 정제, 전처리하여 예측을 위한 모델 구축, 데이터 분석/해석 촛점

5. 데이터 엔지니어

  • 데이터 인프라 구축/유지 관리하는 전문집단
  • 데이터 스토리지 솔루션 설계/구현 , ETL 프로세스를 수행하는 일
    ( 프로세스 생성, 데이터 정합성 맞는지, 이슈 없이 액세스 가능한지 확인/유지/관리)
    데이터 조달/관리의 기술적 촛점
  • 소셜 미디어 데이터를 수집/저장 하기 위한 데이터파이프라인 구축
  • 보고/분석 기능을 개선하기 위해 데이터웨어하우스 설계
  • 의료,금용 대량 Transaction(거래) 데이터를 처리할 수 있도록 데이터베이스 최적화

6. 인공지능 ( 기계 학습을 뛰어넘는 분석 기법: 시스템에 추론 능력 제공)

  • 인간 지능의 한 단면을 기계가 모방한 시스템
  • 이전의 패턴이나 지도를 보지 않고 추론을 통해 구성요소들과 사건의 관계를 밝혀내는 것 (사례: 챗GPT)

7. 데이터마이닝(Data Mining)

  • 다양한 관점에서 데이터를 분석해 의미를 도출(데이터의 특징을 알아내는 것)
  • 보유한 데이터를 다양한 관점에서 분석하고, 결과를 유용한 정보로 조합하는 일
  • 데이터 속에 숨어있는 패턴과 상관성을 통계적 수법으로 식별하여 가치를 부여
  • 데이터 마이닝 기법
    연관분석
    - 고객이 구매한 쇼핑카트 내의 개별 상품간의 상관관계 식별
    주어진 데이터셋에서 자주 발생하는 속성값들을 연결해주는 규칙을 발견하는 것
    `회귀분석`
    
    - 독립변수 분석을 통해 종속변수가 무엇인지 밝혀내는 것 (추천)
    어떤 상품의 예상 판매 실적을 두고 주요 고객들의 소득수준과 상품의 판매가격과의 상관관계 예측
    
    `분류 분석`
    
    - 개체들을 여러 카테고리로 나누는 일

8. 머신러닝 (Machine Learning)

  • 데이터 마이닝, 학습알고리즘 사용하여 지식을 추출
  • chatbot
  • 이를 경험기반으로 삼아 비슷한 상황의 미래 사건의 결과를 예측
    (현재 데이터를 가지고 학습 하고, 미래를 예측)
  • 인공지능의 한 분야
  • 기계 학습은 자체 학습 알고리즘을 사용하여 시간이 경과함에 따라 경험을 축척하면서 작업 성능이 향상
    • 지도학습 : 결과가 있다. 데이터를 바탕으로 예측하거나 분류 (회귀분석, 분류)
    • 비지도 학습 : 라벨이 없는 데이터에서 패턴을 발견하고 숨겨진 구조를 찾아내는 것
      군집화 , 의사결정트리
    • 강화학습 : 경험과 시행착오를 통해 얻어진 데이터를 기반으로 모델을 지속적으로 개선하면서 학습시키는 방식

9. 딥러닝(Deep Learing)

  • 여러 비선형 변환기법의 조합을 통해, 다량의 복잡한 자료들에서 핵심적인 내용만 추려내는 작업

회고

오늘은 데이터마이닝 개념만 배우고 나머지는 팀작업했다! 팀 기획, 요구사항 정의서 적는 중.. 완료되면 정리해서 블로그에 올려야징 그리고 다른 조원 분이랑 카톡하며 진행사항 공유하고 수다떨었는데 조금 조급해졌다. 조급해하지 말자 화이팅

profile
내 지식을 기록하여, 다른 사람들과 공유하여 함께 발전하는 사람이 되고 싶다. 참고로 워드프레스는 아직 수정중

0개의 댓글