Today I learned (0405)

윤진호·2022년 4월 5일
0

Today I Learned

목록 보기
7/16

오늘 한 일

태블로 9일차

실전 시각화를 위한 데이터를 준비하기

  • 데이터 쉐이핑 : 태블로는 와이드 폼보다는 롱 폼을 선호
  • 데이터 해석기 : 데이터의 간략한 처리를 지원. 제목, 빈셀을 인식한 후 적합한 데이터로 변경해 줌
  • 데이터 확인 작업 : #1. 데이터 보기, #2. 필드 설명 보기, #3. 차원과 측정값 분류, #4. 기본 속성 확인하기, #5. 레코드 수 확인하기
  • 피벗 : 데이터 행, 열 변경
  • 스플릿 : 특정 기준에 따른 데이터 분할
  • 데이터 관계 : 테이블 간의 관계를 설정하지만 하나의 테이블은 아님. 자동으로 조인을 생성. 집계값 중보 없고 모든 행, 열 데이터의 사용이 가능
  • 유니온 : 테이블을 세로로 합치는 작업. 같은 데이터 연결 타입이어야 하며, 모든 테이블에서 필드명과 데이터 타입이 같아야 함
  • 오더 오브 오퍼레이션 : 태블로의 동작 순서를 지정

SQL 8일차

테이블과 뷰

  • 테이블 생성 실습
  • 제약조건 : 어떠한 조건을 만족할 때 입력할 수 있도록 하는 것. 데이터 무결성을 보장
  • 제약조건 기능 : PRIMARY KEY, FOREIGN KEY, UNIQUE, CHECK, DEFAULT, NULL
  • ALTER TABLE(테이블 수정), DROP TABLE(테이블 삭제)
  • 뷰 : 테이블과는 달리 데이터 편집은 안되지만 유저 관점에서 볼 수 있는 것.
  • 뷰의 장점 #1. 보안 장점, #2. 쿼리의 단순화
  • 테이블스페이스 : 테이블이 실제로 저장되는 물리적 공간. 대용량 데이터를 다를 시 성능 향상을 위해 사용

캐글 월마트 데이터 실습

  • 임원 면접이 예정되어 있는 데 직무가 매장데이터 분석이여서 관련 자료를 찾아보다가 실습하게 되었다.
  • 45개 매장에 대한 월마트의 과거 판매 데이터(2012~2013) 제공. 상점 부서별로 매출액을 예측해야 한다.
  • 휴일 이벤트가 포함되며, 매출에는 영향을 주지만 어떠한 부서가 영향을 받을 지는 예측하기가 어려움.
  • 평가기준은 회귀모델 평가지표 중 하나인 WMAE(Weighted Mean Absolute Error)에 따름. MAE는 모델의 예측값과 실제값의 차이의 절대값의 평균을 의미함
  • https://yekim0808.tistory.com/9 블로그에 올라온 랜덤포레스트 방법으로 테스트해 보았다. 평가점수는 4873.71361로 평균(4682.28102)보다 낮다(WMAE는 낮을수록 좋다)
  • Feature 쪽을 활용을 안했는데 좀 더 연습해볼 예정이다.

내일 할 일

태블로 10일차 : 비즈니스 문제 해결을 위한 계산식 만들기

SQL 9일차 : 인덱스, 스토어드 프로그램

캐글 월마트 추가 실습

profile
데이터 분석가

0개의 댓글