SQL로 맛보는 데이터 전처리 분석

Daye Kang·2020년 8월 6일
0
post-thumbnail

우연히 MySQL을 접했습니다. 물론 데이터 '분석'을 위해 접했던 건 아니고 DB화 해서 node로 쿼리를 짜야 하는 작업을 위해서였습니다. Workbench 처음 켰을 때만 해도 아는 게 하나도 없었던 상태라 매우 두려워했던 기억이 납니다. 해야할 일이 있었기에 데이터베이스에 대한 기본적인 개념을 채우고 테이블 CRUD 하는 방법을 알아가고 어떻게 테이블을 짜서 foreign key로 연결할지 고민을 했습니다. 처음이라 생소했지만 그 구조와 틀을 짜는 게 재밌었습니다. 어떻게 구조와 틀을 짜느냐에 따라 '효율'이라는 게 달라지기도 하고, 더 가독성 있게 짤 수도 있는 거구요.

그 과정 이후에 제게 남은 건 이 툴을 더 알아보고 더 활용해보고 싶다는 마음이였습니다.
그래서 일단 DataCamp에서 SQL 기본 과정을 혼자 해보며 시작했는데, 마냥 쉽지만은 않았습니다.
고군분투 하면서도 재밌게 했습니다.

그리고 찾은 게 이 책입니다. 'SQL로 맛보는 데이터 전처리 분석'.
뭔가 좀 더 실제적인 걸 해보고 싶어서 찾았습니다.
실제 데이터로 실무에서 필요할 법한 지표들을 처리하고 추출하는 방법을 제시하고 있는 책입니다.

DataCamp에서 이해는 했지만 제대로 활용 못했던 것들을 이 책에 나온 예제들을 따라하면서 이해할 수 있었습니다.
개인적으로 가장 좋았던 건 'sub query'를 어떻게 활용해야 하는가에 대해 감을 익힌 것 입니다.
예제도 'kaggle'에서 받아서 썼는데 'kaggle'을 들락날락하면서 다른 사람들은 어떻게 데이터를 원하는 지표에 맞게 분석을 하는지 볼 수도 있고, 사람들마다 각자만의 방식을 제시하는 데 무궁무진하다고 느꼈습니다. 그리고 그 과정에서 파이썬을 배워야 겠다는 결심까지 갖게 되었습니다.

어쨌든 MySQL로 데이터를 받아 쿼리를 이리저리 짜 보면서 데이터의 구성 요소들의 특징과 정의를 정확하게 파악하는 게 매우 중요하다는 점, 쿼리를 한 가지가 아니라 여러 방식으로 짜 보면서 결과값이 동일한지 파악해보기, SQL은 분명 좋은 도구이지만 데이터 분석을 심화하는 데는 한계가 있다는 점 등 많은 점들을 배울 수 있었습니다.

그럼에도 저 스스로에게 데이터를 이리저리 굴려 보고 결과를 확인하고 결과값을 스스로 분석해보면서 실무에서는 어떤 지표와 개념이 중요할지 등 많은 점을 생각하게 했고, 자신감도 불어 넣어 줬습니다. 물룬 아직 '우매함의 봉우리'에서 뛰어놀고 있지만...ㅎㅎ

profile
뭐든 하자

0개의 댓글