[내일배움캠프 사전캠프] SQL 5주차, 데이터 분석가가 되어보니 중요한 것들

sleekstar·2025년 4월 28일

SQL 5주차 강의 수강

조회한 데이터에 아무 값이 없다면?

null: 어떤 데이터가 없다고 치부하거나, 값을 제외할 때 사용할 수 있다.
값의 변경:

  • 다른 값이 있을 때 조건문 이용하기 : if(rating>=1, rating, 대체값)
  • null 값일 때 : coalesce(age, 대체값)

조회한 데이터가 비상식적인 값을 가지고 있다면?

-조건문으로 값의 범위를 지정하기: case when 사용

SQL로 Pivot Table 만들기

굳이 엑셀을 거치지 않고도 피벗테이블을 만들 수 있다! 프로세스 간소화에 도움.
step 1. base data 만들어주기
step 2. base data 이용하여 피벗 뷰 만들어주기

  • 피벗 뷰를 만들어주기 위해서는 꼭 최댓값 조건(max)을 걸어줘야 된다. 구조를 이해하려고 노력하지 말 것.
    그리고 max, sum 등 계산이 들어가면 group by를 꼭 적어줘야 함.

Window Function-RANK, SUM

RANK() OVER (PARTITION BY_): 특정 기준으로 순위를 매겨주는 기능

  • 윈도우 함수의 괄호 안에는 아무런 값을 넣어주지 않아도 괜찮다.
    OVER는 짝꿍처럼 따라오는 것, PARTITION BY는 어떠한 기준으로 묶을지 써주는 것

날짜 데이터 이용하기

date(): 데이터를 날짜 데이터로 바꿔주는 함수
date_format: 날짜 데이터의 형식을 지정해주는 함수

코딩 스터디

오늘 과제는 강의에서 배우지 않은 문법이 나와 조금 어려웠다. 팀원분의 도움으로 필요한 문법을 정리할 수 있었다.

year(컬럼명) =  연도추출

CURDATE()=  현재 날짜를 `YYYY-MM-DD` 형식으로 반환

DATEDIFF(기간1, 기간2) =  두 기간 사이의 일수 계산 

그리고 좋은 사이트도 소개받았다. https://www.datacamp.com/doc/mysql

코딩 스터디를 할 때는 모르는 문법은 적극적으로 검색해보면서 할 필요가 있겠다.

아티클 스터디

데이터 분석가가 되어보니 중요한 것들

(https://yozm.wishket.com/magazine/detail/1863/)

[주제]

‘좋은 의사결정을 하도록 돕는 사람’인 데이터 분석가에게 중요한 세 가지 요소

[아티클 요약]

데이터 분석가는 모델링(통계, 머신러닝, 딥러닝)을 잘 하는 사람? NO!

린 분석, 비즈니스 모델, 데이터 시각화, 마케팅 등 기술까지 활용해 ‘데이터에 기반해 성공 확률이 높은 의사결정을 지속적으로 하도록 돕는 사람’

중요한 것 3가지-(1) 데이터 기반, (2) 성공 확률이 높은 의사결정, (3) 지속성

  1. 데이터 기반: 데이터가 흐르는 조직→스토리텔링 분석, 목표 설정, 실험→분석 고도화
    데이터가 흐르는 조직 형성이 가장 첫 번째. BI(Business Intelligence) 툴 도입, 대시보드 개발, SQL 교육, 사용하기 쉬운 데이터 마트 개발, PA(Product Analytics) 툴 활용, 알림봇 개발 등.

  2. 성공 확률이 높은 의사결정: 데이터에 기반한 의사결정의 효율성은 이미 여러 회사에서 증명됨.
    그러면 어떻게?

[상황을 정확하게 해석하기]
데이터 분석가는 여러 지표를 적절히 조합하고 분석해, 편향되지 않게 해석하고 상황을 진단하는 사람이어야 함. & 도메인 지식을 길러 생각의 프레임워크를 사실에 가깝게 구성해야 함.

[목표 설정과 성과 측정]
목표 설정→실행→측정→축적

Q: 구체적으로 어떤 것이 목표치가 될 수 있나? 3가지 조합 (1) 구조화된 로직에 과거 데이터를 활용한 예상치, (2) 새로운 액션에 대한 확신 수준, 시장이나 경쟁사 상황, 불확실성을 반영한 기대치, (3) 의지치예상치에 구조화된 로직이 있을 때, 그 로직을 구성하는 수치를 기대치의지치를 이용해 변경한 값이 목표치

Q: 성과 측정의 방법?
해당 시기 이후로 지표가 어떻게 변했는지 확인하기, A/B 테스트(무작위로 할당된 그룹 간 지표 차이 분석. 단기적)

  1. 지속성
    체계적으로 의사결정을 축적하다보면 결과적으로 성공 확률 상승, 따라서 지속성이 중요함.
    지속성을 위해서 데이터 분석가는 비즈니스 사이클에 맞게 분석해야 한다. 즉, 분석 주제가 현재 회사가 집중하는 것과 달라서는 안 되며, 분석 주제의 결과물이 비즈니스 사이클에서 필요한 것이어야 한다는 뜻.

비즈니스 사이클의 3단계 기회 발굴, 아이디어 수집, 정책 설계 등 플래닝(탐색적 분석(Exploratory Data Analysis, EDA)) (2) 플래닝의 결과 실행 및 배포(데이터 확인 및 대시보드 관리) (3) 성과 측정 및 후속 분석(인사이트 도출, 다시 플래닝에 반영)

[인사이트]

‘린 분석’이 무엇인지 정확히는 모르겠으나, 낭비를 없애고 자원을 효율적으로 사용하는 것을 의미한다고 한다. 관련 서적이 있었다.

최근 읽은 아티클들이 데이터 분석가가 되려면 기술적 역량은 기본이고, 그밖에 마케팅, 커뮤니케이션 능력, 범주화 능력, 적확한 기준을 바탕으로 데이터를 해석하는 능력이 중요하다는 이야기를 하고 있는 듯하다. 그렇다면 기술적 역량, SQL이나 Python 역량은 얼마나 갖추어야 하는가?

SQL과 같은 것들은 정말로 사무직의 엑셀과 비슷한 위치로, 기본적인 것이지만 잘 한다고 해서 꼭 ‘일을 잘한다’는 것을 의미하지 않는 툴 정도인 것인가 하는 생각이 들었다.

데이터 분석가에게 영업력도 꽤 중요한 요소처럼 느껴진다.

profile
기록용

0개의 댓글