[Data] 로드맵

Ik·2022년 7월 25일
0

Data

목록 보기
22/34

데이터 이해하기

  • DB
    • 환경
    • 어떤 테이블이 있는지
  • 이미 만들어져 있는 쿼리를 적극 활용
    • 쿼리를 보고 수정해가며 연습
  • SQL 이해도 이해지만 손에 익히기
  • Window Function 공부
    • ex) RFM 분석을 할 때 엑셀을 활용했던 부분도 대체 가능
  • 책 추천
    • lean analytics
      • 무엇을 측정해야 하는지, 지표를 어떻게 받아들여야 하는지
    • 생각하는 늑대 타스케
      • 문제를 어떻게 정의할 것인지 가설 수립에 대한 아이디어
      • 가설을 세울 때 도움이 되는 사고방식의 흐름을 담음
  • 내 비즈니스에 중요한 선행지표 찾아보기
    • 일어난 일에 결과 지표 - 후행지표말고 앞서 가는 선행지표 확인 필요

 [HackerRank

HackerRank is the market-leading technical assessment and remote interview solution for hiring developers. Learn how to hire technical talent from anywhere!

www.hackerrank.com](https://www.hackerrank.com/)

로드맵 추천

  • linkedin 참고
  • Date 관련
    • 능력 
      • 1. hacking skills
        • 개발 능력
      • 2. math & statistics knowledge
        • 수학과 통계학 지식
      • 3. substantive expertise
        • 비즈니스 쪽의 도메인 지식
    • 분야별 필요 능력
      • 어느 하나 빠져서는 안됨 
      • Data science
        • 3가지 모두 잘하는 경우 
      • traditional research
        • 2,3 잘하는 경우 
      • 데이터 엔지니어
        • 1번의 무게감
        • 데이터 수집 및 저장을 위한 파이프라인 구축 효율적인 데이터 인프라 관리
      • ML/DL/AI 엔지니어
        • 1, 2번 무게감
        • ML/DL/AI 관련 최신 기술을 이용한 모델링 업무
        • 효율적인 컴퓨터 자원 활용을 위한 개발지식 중요
      • 데이터분석가, 비즈니스분석가
        • 3번의 무게
        • 비즈니스의 핵심 지표 정의 및 전략 도출
        • 가설 수립과 실험을 통해 데이터로 결과를 검증하고 서비스를 개선하는 역할
    • 강의 플랫폼 추천
      • UDACITY - google에서 운영
        • 비싸지만 촘촘하게 알려줌
        • 나노디그리 획득 가능
        • 무료인 강의도 좋다
      • coursera
        • 무료, 전반적으로 꽤 괜찮다
        • 비용 지불시 Ceritfication 획득 가능
      • DataCamp
        • 유료, 손풀기에 이만한게 없다
        • 데이터 분석에 특화
      • Udemy
        • 유료지만 저렴한 편, 복불복(잘찾아보고 듣자)
        • 강의 편차 큼, 후기 확인 필요
    • data conference
      • Tacademy
      • NDC - nexon developers conference
      • DEVIEW - naver
      • if(kakao)
      • 데이터야 놀자
      • data break
  • 출처 : 탈잉






배경 참고

모집 공고들을 보며 BI, DW, 파이프라인, 시각화 등 사용되는 명확한 프로세스를 파악 하기 위해 작성


수 많은 정형, 비정형, 반정형 데이터들을 우리가 사용할 수 있도록 변화시키고 그 중 필요한 데이터들을 추출해 분석을 위한 시각화 or ML, DL 등의 작업을 진행한다


데이터 파이프라인

이름에서 알 수 있듯이 데이터 사이언스 프로젝트 or BI 대시보드에 대한 파이프 역할

원시 데이터를 가져와 전처리 과정을 거쳐 우리가 사용할 수 있는 형태(데이터 분석을 위한 시각화를 하든 ML, DL에 쓰이는 데이터로 변화시키든)로 저장해 위에 언급한 두 가지에 쓰이기 전 까지의 과정이라 생각하면 될 듯

ETL(수집, 변환 저장)은 파이프 라인 아키텍처, 파이프 라인 종류 중에 하나로 보면 된다

  • ELT 등도 존재

ETL 파이프라인

  • E : Extract
    • 데이터 추출
    • 서비스의 Database, 앱/웹의 로그 데이터를 추출
  • T : Transform
    • 데이터를 변환
    • 데이터를 잘 활용할 수 있도록 데이터를 변환
  • L : Load
    • 데이터를 사용할 수 있도록 불러오기
    • 변환한 데이터를 사용할 수 있도록 설정

처리 작업

유형은 일괄 처리와 스트리밍 2가지로 나눌 수 있다

일괄처리

Hadoop, MongoDB 등 관련

MapReduce는 일괄 처리 알고리즘


BI

데이터를 이용해 보다 경제적인 의사결정을 하기 위해 진행하는 방법이고 BI툴로는 태블로 같은 것이 있다

Tableau

데이터 시각화 하는 면에서 코드를 직접 타이핑하는 기존의 R, python 같은 방법이 아니기에 턱이 낮아 계층에 관계없이 많은 사람들이 사용을 하고 있으며 데이터 전처리 과정이 끝난 데이터가 테블로에 올라가고 시각화 작업을 진행하는 것


EDA

탐색형 데이터 분석

데이터 사이언티스트가 종종 데이터 시각화 방법을 사용하여 데이터 세트를 분석 및 조사하고 주요 특징을 요약하는데 사용






ref

0개의 댓글