Python
- 객관적, 쉬운난이도
- 빠른 처리속도
- 다양한 라이브러리 지원
- pandas
- Seaborn
- Visualization, 3-dimension 가능
- Scikit-learn
- Tensorflow
- Mysqlclient
- MySQL DB에 연결하여 쿼리를 실행할 수 있는 라이브러리
SQL
- 범용성
- 대부분 데이터는 SQL 방식의 DB에 저장됨
MySQL, MariaDB, Oracle DB, PostgreS!QL, Redshift 등
- SQL 문법
- SQL query를 통해 데이터를 추출
SELECT, FROM, WHERE, GROUP BY, HAVING, INNER JOIN, LEFT JOIN 등
- SQL을 다루고 데이터를 추출하면 좋은 점
- 시간 단축
- 원하는 데이터를 설명하고 이해시키는 과정을 생략함으로써, 시행착오를 줄일 수 있음
- 데이터 이해도 향상
- DB에 어떤 Table이 있는지, 저장되는 데이터 항목에 대한 지식이 쌓임
- 개선방향 도출
- 데이터 DB를 다룸으로써, 어떤 데이터가 부족한 지 확인할 수 있음
- 필요한 데이터를 확인할 수 있음 >> 의사결정 속도 향상
- 모든 프로그래밍 언어에서 데이터 추출방법의 기본적인 방법
- 데이터 추출 및 분석방법
- 데이터 다운로드(XLS) ▶ 확장자 변환(XLS → CSV) ▶ 데이터 분석
- 프로그램(R/Python 등)에서 직접 DB 접속 ▶ 데이터로드 후 분석
*
반복작업을 자동화 하기 위해 R/Python을 배우기 이전, SQL을 배워야 하는 가장 중요한 이유!