select r.*, s.salary from recent_df r, salary s
where r.선수명 = s.name and r.year = s.year
느낀점
- 데이터의 중요성
먼저 해당 Toy_project를 A to Z까지 데이터 수집 , 추출, 가공, 분석 등 모든 과정을 혼자해보니 어떤식으로 데이터 분석이 진행되는지 큰 맥락을 조금 알 수 있었다. 제일 중요한 것은 목적에 따라 데이터를 정확히 수집하고 가공해야한다는 것이었다. 분석은 다양한 기법을 사용하고 비교하기 때문에 비교적(주관적 생각) 실수의 발생 확률이 적지만, 데이터 자체가 잘못됐다면 엉뚱한 결과가 나올 수도 있기 때문이다. 꼭 맞는 비유는 아니지만 이것이 제3종오류와 비슷하다 생각했다. 3종 오류는 문제를 해결하는 과정에서 문제 자체를 잘못 정의한 것인데, 데이터 분석에서 데이터를 잘못 수집한 것은 근본적으로 분석에서 잘못을 했다는 생각이 들었다.
- 도메인의 중요성
1번과 연결되는 내용인데, 나는 야구에 대해서 1도 관심이 없고 지식도 부족했다. 그래서 모든 과정을 끝내고 투수 아마추어 대회에서 우승한 친구에게 해당 과정을 설명하니, 데이터를 분석할 때 중요한 컬럼을 제대로 반영하지 못했다. 내가 조금 더 도메인에 대한 지식이 존재했다면, 중요한 컬럼, 지표를 신중하게 분석했을 텐데 그 점을 제대로 하지 못한 것이 아쉽다.
마무리 : 그래도 전체적인 분석 과정은 나름 만족스럽다. 다만, 중간 중간 디테일이 부족하니까 다음에는 조금 더 잘해보자