오늘 한 일
태블로 9일차
실전 시각화를 위한 데이터를 준비하기
- 데이터 쉐이핑 : 태블로는 와이드 폼보다는 롱 폼을 선호
- 데이터 해석기 : 데이터의 간략한 처리를 지원. 제목, 빈셀을 인식한 후 적합한 데이터로 변경해 줌
- 데이터 확인 작업 : #1. 데이터 보기, #2. 필드 설명 보기, #3. 차원과 측정값 분류, #4. 기본 속성 확인하기, #5. 레코드 수 확인하기
- 피벗 : 데이터 행, 열 변경
- 스플릿 : 특정 기준에 따른 데이터 분할
- 데이터 관계 : 테이블 간의 관계를 설정하지만 하나의 테이블은 아님. 자동으로 조인을 생성. 집계값 중보 없고 모든 행, 열 데이터의 사용이 가능
- 유니온 : 테이블을 세로로 합치는 작업. 같은 데이터 연결 타입이어야 하며, 모든 테이블에서 필드명과 데이터 타입이 같아야 함
- 오더 오브 오퍼레이션 : 태블로의 동작 순서를 지정
SQL 8일차
테이블과 뷰
- 테이블 생성 실습
- 제약조건 : 어떠한 조건을 만족할 때 입력할 수 있도록 하는 것. 데이터 무결성을 보장
- 제약조건 기능 : PRIMARY KEY, FOREIGN KEY, UNIQUE, CHECK, DEFAULT, NULL
- ALTER TABLE(테이블 수정), DROP TABLE(테이블 삭제)
- 뷰 : 테이블과는 달리 데이터 편집은 안되지만 유저 관점에서 볼 수 있는 것.
- 뷰의 장점 #1. 보안 장점, #2. 쿼리의 단순화
- 테이블스페이스 : 테이블이 실제로 저장되는 물리적 공간. 대용량 데이터를 다를 시 성능 향상을 위해 사용
- 임원 면접이 예정되어 있는 데 직무가 매장데이터 분석이여서 관련 자료를 찾아보다가 실습하게 되었다.
- 45개 매장에 대한 월마트의 과거 판매 데이터(2012~2013) 제공. 상점 부서별로 매출액을 예측해야 한다.
- 휴일 이벤트가 포함되며, 매출에는 영향을 주지만 어떠한 부서가 영향을 받을 지는 예측하기가 어려움.
- 평가기준은 회귀모델 평가지표 중 하나인 WMAE(Weighted Mean Absolute Error)에 따름. MAE는 모델의 예측값과 실제값의 차이의 절대값의 평균을 의미함
- https://yekim0808.tistory.com/9 블로그에 올라온 랜덤포레스트 방법으로 테스트해 보았다. 평가점수는 4873.71361로 평균(4682.28102)보다 낮다(WMAE는 낮을수록 좋다)
- Feature 쪽을 활용을 안했는데 좀 더 연습해볼 예정이다.
내일 할 일
태블로 10일차 : 비즈니스 문제 해결을 위한 계산식 만들기
SQL 9일차 : 인덱스, 스토어드 프로그램
캐글 월마트 추가 실습