1. 대시보드에서 데이터를 엑셀 파일로 다운로드하고(수작업), 엑셀 파일을 R/파이썬에 불러내기 위해 CSV파일로
변환하고(수작업), 정해진 규칙에 따라서 파일명을 변경(수작업)한 뒤, 그제서야 R/파이썬에 데이터를 불러내서 분석하기.
2. R/파이썬에서 직접 DB에 접속해서 데이터를 불러 와서, 분석하기(코드만 한 번 짜 두면 그 뒤에는 수작업 없음)
예) 시각화 툴: 제플린
1. 들여쓰기 지원.
2. 변수 선언 필요x
3. 사람의 언어에 가깝게 작성
1. 지속적으로 발생하는 대량의 데이터 분석할 때 유용
2. 웹이서 크롤링해오는 데이터를 반복적으로 분석할 때 유용
1. 분류든 회귀든 머신러닝과 관련한 대부분의 알고리즘을 지원
예) Pandas(판다스): 데이터를 엑셀과 같은 표의 형태로 작성하고 기초통계 및 계산, 시각화 등을 지원
Seaborn(씨본): 다양한 색상 테마와 통계용 차트를 지원하는 시각화 라이브러리, 2차원 뿐만 아니라 3차원 데이터의 시각화도 가능
Sckit-learn(사이킷런): 분류, 회귀, 클러스터링, 차원 축소 등 다양한 머신러닝 모델링을 지원
TensorFlow(텐서플로): 구글에서 제공하는 딥러닝 개발을 위한 라이브러리
Mysqlclient: MySQL DB에 연결하고 쿼리를 실행할 수 있는 라이브러리
SQL은 DB에 저장돼있는 데이터를 가공하고 추출 할 때 사용 / PYTHON은 분석, 시각화 등 할 때 사용
2번째는 제가 PYTHON을 배우고나서 SQL을 배웠을 때 알게 된 것인데, SQL에는 반복문을 지원하지 않았습니다