[25.02.12] 사전캠프 16일차 달리기반+

김명서·2025년 2월 12일

TIL sql

TIL_sparta

목록 보기

17/60

📕북스터디

[주제]

데이터 활용을 잘하고 있는가

[아티클 요약]

p.17 기계가 압도적으로 잘하는 일이 훨씬 많은 세상에서
기계에 맡길 수 있는 일, 맡기는 편이 더 나은일
↔
기계가 할 수 없는 것, 사람이 해야하는 것을 구별하자
p.20
데이터 활용에 필요한 3가지 상자
(1)생각하고
:분석 전에 문제 및 목적을 정의하고 가설을 구축
(2)작업하고
:분석을 위한 기술과 지식
(3)생각한다
:분석 결과에 대한 해석 및 스토리 구축
=> 작업은 기계에게 맡기고 생각하자.
p.26 데이터가 우리에게 직접적인 답을 주는 경우는 없다

💡

-무엇을 알고싶은지

-이를 알게되면 무엇을 하고 싶은지

-이를 위해서는 어떤 데이터(지표)가 필요한지

p.32 데이터 활용 프로세스
A. (겉으로 드러난 현상)

B. (목적 및 문제를 정의)
C. (지표를 결정)
⇒목적/문제 정의

D. (현재 상태를 파악)
E. (평가)
⇒현상파악/평가

F. (요인을 분석)
⇒ 요인

G. (해결방안을 모색)
⇒방법
p.40~ 데이터 활용에서 먼저 해야하는 작업은?
-나는 무엇을 알고 싶은가
-나는 구체적으로 무엇을 해결하고자 하는가
✅ 사용된 언어가 구체적이고 명확한가?
✅ ‘문제’, ‘원인’,’해결방안’을 구분하고 있는가?
(작업 전, 해결하고자 하는 문제와 그 목적에 대해 명확히 해두자)
.
p.46~ 문제정의 사례들
🔻주관적인 자신의 추측(사무직 관련 제안이 많은 회사라는 이미지가 생겼다)을 가지고 원인을 단정짓는 것은 바람직하지 않다.
🔻효율적이고 효과적인 영업활동을 못한다가 아니라 그래서 어떤 곤란한 점이 생겼는지까지 제시해야 상대방에게 그 문제의 심각성을 전달할 수 있다
🔻목적과 문제 정의 시점에서 이미 결론(해결방안)을 내리지 말자
문제를 정의하는 시점에서 구체적인 ‘원인’을 규명하고 ‘방안’을 수립하는 것은 불가능하며, 이는 데이터를 활용해서 나중에 할 일** 이다
🔻단어의 정의를 명확히 하자
(ex.유연한 근무환경이란 무엇인지)
(ex.수익감소? → 매출액을 말하는 것인지, 이익을 말하는 것인지, 순이익을 가리키는지, 매출 대비 수익률을 가리키는지 <그 문제를 데이터로 증명해달라고 요청받으면 , 어떤 데이터를 활용해야할 지 혼란스러울 것이다>
🔻생산량,질 같은 익숙해서 무심코 사용하는 단어나 표현은 특히 주의하자.
(짐작이나 추측이 아니라, 논리적인 설명을 통해 이용할 지표를 결정해야한다)
.
p.62
잘못된 결과들의 공통점
1.기존에 있는 그래프를 전제로 결론을 내려함
2.앞선 (1)의 사고 전개 과정에서 주관적인 해석이 개입함

p.65 결론 도출 프로세스와 프레젠테이션 순서
.
결론 도출 프로세스
(1)평가 지표 및 기준을 결정
(어떤 요소와 지표가 더욱 목적에 부합하는가?)
(2)적합한 데이터 및 그래프를 선택
(어떤 데이터 형태와 그래프가 효과적인가?)
(3)결론
(결국 무슨 말을 할 수 있는가?)
.
프레젠테이션 순서
(3)결론
(1)평가 지표 및 기준을 결정
(2)적합한 데이터 및 그래프를 선택

p.76~77
내가 말하고자 하는 바는 무엇인가?
나는 올바른 데이터/지표를 활용하고 있는가?
목적 및 문제(무슨 말을 하고 싶은가, 말해야하는가)
→ 둘 이상의 해석이 나오지 않도록, 구체적으로 표현하고 정의하였는가?

↓ 적합한가?

데이터 및 지표
.
.

[인사이트]

자주겪는 문제점 (p.28) 1번.
’데이터를 적절하게 분석하면 문제와 목적, 결론이 나올 것으로 생각한다‘
→ 나는 그동안 이 생각을 가지고 있었고, 그래서 데이터 분석 공부를 하기로 마음을 먹었었다.
이제 알고보니, ‘데이터 분석 자체’가 목적이 되어 본캠프에 참가하게 된 내 모습이 모순적이었다. 단순히 데이터분석을 잘하고 싶어서보다는, 데이터활용을 통해 이뤄내고싶은 것들이 무엇인지 진지하게 고민해나가봐야겠다.

이미 주어진 데이터에서 무엇을 발견할 수 있는가..라는 태도가 형성된 데에는,
수업과 시험형식에 오래 적응되어있어서 그런게 아닌가 싶다.
기초통계학 수업을 들었을 때 수업과 시험은 모두 데이터 파일을 주고,
[이 데이터에서 무슨 분석방법을 사용해야하고, 어떤 분석결과와 인사이트가 나왔으며, 결론 및 개선책이 무엇이었는가 ] 답이 정해져있는 문제를 푸는 것이었다. 물론 개념과 통계지식 습득에는 도움이 되었지만, 내가 희망하는 직무는 ‘현재 현상에 대한 데이터를 보고 능동적으로 목적에 맞는 프로젝트’를 수행하는 것이 중요하고 정답이 없는 만큼, 이 사고의 틀에서 벗어날 필요가 절실해보인다.

2-3장부터는 ‘지표 불일치’사례들이 나온다. 여전히 처음에는 이상함을 잘 못느꼈다. 아직 데이터 활용을 위한 사고방식에 익숙하지 않음을 다시한 번 자각했다.

2장 마지막 즈음(p.74) 사례 10번에 내가 직접 경험했었던 오류(만족도-이용빈도의 상관관계 분석)가 그대로 나와있어, 가장 기억에 남는 사례였던 것 같다.

.
.

달리기반

우선 오늘 학습 시작 전, Lv.4 2번문제를 복습겸 다시 풀었다

select c.country, c.customername, sum(o.totalamount) total_spent
from orders o join customers c
on o.customerid=c.customerid
group by c.country, c.customername
having sum(o.totalamount)=
(
select max(total_spent)
from (
	select c.country, c.customername, sum(o.totalamount) total_spent
	from orders o join customers c
	on o.customerid=c.customerid
	group by c.country, c.customername
)s
where s.country=c.country
);

이제 구조가 좀 보인다!
아근데 where s.c.country=c.country여야 하는거 아니냐며...
.

Lv5. 가장 높은 월급을 받는 직원은?

각 직원의 이름, 부서, 월급, 그리고 그 직원이 속한 부서에서 가장 높은 월급을 받고 있는 직원의 이름과 월급을 조회하는 SQL 쿼리를 작성해주세요.

처음에..서브쿼리를 2개 사용해서 시도해봤는데..
[아주 간략히 한 ver.]
select 5개의 열
join(
name top_earner
join(
max(salary)
);
이렇게 하니까 이름이 중복되서 열이 너무 여러개 만들어졌다..
정답을 확인해봤는데
서브쿼리 하나, where조건 하나로 작성할 수 있는 듯 해서
이 힌트만 얻은채 혼자 다시 써봤다.

select e.name, e.department, e.salary, m.name top_earner, m.salary top_salary
from employees e join employees m 
on e.department = m.department 
where m.salary =(
		select max(salary)
        from employees 
		where department=m.department 
        )

📌답안 풀이 해설

e1과 e2 테이블을 JOIN해서 같은 부서의 직원들끼리 매칭한다.

e2.Salary는 서브쿼리에서 해당 부서의 최고 월급을 가져온다.

서브쿼리 (SELECT MAX(Salary) FROM Employees e3 WHERE e3.Department = e1.Department)는 e1과 같은 부서에 속한 직원들 중 가장 높은 월급을 반환한다.

최종적으로 각 직원의 이름, 부서, 월급과 함께 해당 부서에서 가장 높은 월급을 받는 직원의 이름과 월급을 출력한다.

.
.

부서별로 평균 월급이 가장 높은 부서의 이름과 해당 부서의 평균 월급을 조회하는 SQL 쿼리를 작성해주세요.
: 이것도ㅠㅠ어제 푼 문제랑 비슷했는데 having 이랑 subquery에서 꼬여서 헤맨 것 같다 ㅠ

select department, avg(salary) avg_salary
from employees
group by department
having avg(salary)=(
	select max(avg_salary)
	from (select avg(salary) avg_salary
			from employees
			group by department) s
) limit 1

IT와 Finance 둘 다 avg가 같아 두개가 조회되길래, limit 1을 더해서 IT 하나만 뜨도록 만들었다.

느낀점

오늘 처음으로 북스터디를 진행해봤는데, 아티클 스터디와는 다른 느낌으로 재미있었던 것 같다.
달리기반 문제가... 왜 이렇게 막막한지 모르겟다 ㅠㅠ 푸는 속도도 너무 느리고.... 갑자기 다음주가 걱정된다 ㅠㅠ
파이썬도 달리기반 훑고라도 가고싶은데 ...ㅜㅜ 할 수 있겠지..
해야지... 일단 이번주에 최선을 다하는 걸 목표로 해봐야겠다ㅠ!

김명서

경영학도의 데이터분석 성장기💥

이전 포스트

[25.02.11] 사전캠프 15일차 아티클스터디+sql달리기반

다음 포스트

[25.02.12] 사전캠프 16일차 달리기반+

TIL_sparta

📕북스터디

달리기반

Lv5. 가장 높은 월급을 받는 직원은?

느낀점

[25.02.11] 사전캠프 15일차 아티클스터디+sql달리기반

[25.02.13]사전캠프 17일차 북스터디_boston house price_ sql 달리기반

0개의 댓글

관련 채용 정보