[주제]
데이터 분석가가 하는 일
[아티클 요약]
데이터 분석가의 업무
1) 수학 & 통계학 : 기초 통계학 수준 (머신러닝 기술을 사용한다면 미적분, 벡터 지식 필요)
2) 비즈니스/도메인 전문지식 : 로우 데이터를 통해 숨겨진 패턴과 경향 파악.
-> 비즈니스에 대한 이해가 선행되지 못하면 데이터 가치 가지기 어려움
데이터 분석가가 필요한 역량
*OMTM(One Metric That Matters) : 서비스의 성장을 위해 지금 우리가 꼭 집중해야 하는 지표 (모든 지표가 모든 시기에 같은 중요도를 가지지 않기 때문에 지표 간 우선순위를 정합니다.)
*허영 지표(Vanity Metric) : 보기에는 좋지만, 실제 중요한 숫자들과 상관이 없는 지표
[인사이트]
데이터 분석가 직무가 생각보다 세분화되어 있다는 것을 알게 되었다. 뿐만 아니라, 아티클은 도메인에 대한 명확한 이해가 선행되어야 한다고 강조한다. 이를 통해 어떤 산업 또는 기업에서 어떤 데이터를 활용해 어떤 분석 업무를 하고 싶은지 보다 구체적인 고민이 필요하다고 생각했다. 먼저 부트캠프를 통해 다양한 데이터를 다뤄보며 조금씩 길을 좁혀나가고 싶다.
SELECT restaurant_name, customer_id
FROM food_orders
WHERE food_preparation_time between 20 and 30;
기본적인 SELECT, FROM, WHERE 활용
어제는 내일배움캠프에서 준 서버를 DBeaver에 연결해서 수업을 들었다.
권한이 막혀 있어서 직접 데이터베이스를 만들어서 테이블을 추가하기가 불가능했다.
그래서 MySQL 설치해 로컬 서버를 만들고 DBeaver에 연결했다.
어려웠지만 어찌어찌 챗GPT와 구글링의 힘을 잘 빌렸다.
이제 직접 테이블을 만들고 실행하면서 연습해보았다.
GPT의 도움을 받아 생성한 테이블
#데이터베이스 만들기
CREATE DATABASE Sparta;
#데이터베이스 지정
USE Sparta;
#테이블 만들기
CREATE TABLE sparta_employees (
id INT PRIMARY KEY,
name VARCHAR(50),
position VARCHAR(50),
salary INT,
hire_date DATE
);
#요소 넣기
INSERT INTO sparta_employees (id, name, position, salary, hire_date) VALUES
(1, '르탄이', '개발자', 30000, '2022-05-01'),
(2, '배캠이', 'PM', 40000, '2021-09-25'),
(3, '구구이', '파트장', 35000, '2023-06-01'),
(4, '이션이', '팀장', 50000, '2021-07-09');

sparta_employees 테이블에서 모든 직원의 이름(name)과 직급(position)을 선택하는 쿼리를 작성해주세요.# name, position 컬럼 선택
SELECT name, position
FROM sparta_employees;
결과 
sparta_employees 테이블에서 중복 없이 모든 직급(position)을 선택하는 쿼리를 작성해주세요.SELECT DISTINCT position
FROM sparta_employees;

DISTINCT 함수는 중복된 값을 제거해준다. 여러 컬럼에서도 가능.
데이터 분석에서 중요한 함수라고 한다.
sparta_employees 테이블에서 연봉(salary)이 40000과 60000 사이인 직원들을 선택하는 쿼리를 작성해주세요.SELECT *
FROM sparta_employees
#BETWEEN -> 사이값
WHERE salary BETWEEN 40000 AND 60000;

sparta_employees 테이블에서 입사일(hire_date)이 2023년 1월 1일 이전인 모든 직원들을 선택하는 쿼리를 작성해주세요.SELECT *
FROM sparta_employees
WHERE hire_date < '2023-01-01';

엑셀에 날짜는 숫자 취급을 하는데 sql에선 따옴표를 쓰는 것이 궁금해서 검색해봤더니, 숫자형도 문자형도 아닌 날짜/시간 데이터형이라고 한다.
주요 날짜/시간 데이터형
DATE: 날짜만 저장 (예: '2023-01-23')
DATETIME: 날짜와 시간 모두 저장 (예: '2023-01-23 14:30:00')
TIMESTAMP: 날짜와 시간 저장, 보통 UTC 기준으로 저장 (예: '2023-01-23 14:30:00')
TIME: 시간만 저장 (예: '14:30:00')
YEAR: 연도만 저장 (예: '2023')
노션 문제 때문에 초반에 좀 삐걱거렸지만, 다행히 잘 해결되었다. 로컬 서버 연결도 마쳤으니 내일부터는 빠르게 진도를 나가고 싶다. 점프 투 파이썬 깔짝이라도 하고 참여한게 정말 다행이라는 생각이 들었다. 덕분에 아직 어려운 부분은 없고 재밌지만 막히는 부분이 와도 좌절하지 말자!