데이터 과학에 유용한 도구 - 엑셀편

leban·2022년 4월 13일
0

헬로데이터과학

목록 보기
1/4

# 엑셀로 데이터 과학 맛보기

: 이번 실습에는 자동차 모델별 연비와 이와 관련된 다양한 스펙을 담은 mtcars라는 데이터 셋을 사용한다.

1. 데이터 불러오기

: 특정한 확장자(예 : csv, txt)의 파일을 탐색기에서 연다.
: 클립보드에 파일 내용을 복사한 후 텍스트 마법사를 통해 불러온다.
-> 임의의 형식인 텍스트 파일을 불러올 수 있음

mtcars 데이터 셋에 포함된 다양한 속성

model : 차명
mpg : 주행 연비(갤런당 주행 마일)
cyl : 실린더 개수
displ : 배기량(리터)
hp : 마력수
drat : 뒷 축 비율(Rear axle ratio)
wt : 무게(1000파운드 단위)
qsec : 1/4마일을 가는 데 걸리는 시간(초)
vs : 엔진 방식
am : 변속기 방식
drv: 구동 방식(f: 전륜, r: 후륜, 4: 4륜)
gear : 기어(gear) 개수
carb : 카뷰레터(carburetors) 개수

  1. mtcars.txt 파일을 적당한 텍스트 편집기(메모장)로 연다.
  1. 내용을 모두 복사하여 엑셀에 붙여넣는다.
  1. <Ctrl>을 눌러 '텍스트 마법사'로 들어간다.
  2. 텍스트 마법사가 열리면 모든 설정을 그대로 둔 채 <마침>을 누른다.
  3. 다음 화면과 같이 엑셀에 테이블 형태로 데이터가 정리되었다.

2. 데이터 준비하기

  1. 워크시트의 데이터 전체를 선택한다.

  2. 메뉴에서 [표 서식]을 선택한 후 적절한 모양을 선택한다.

  3. 왼쪽 화면에서 <확인>을 누른다.

  4. 표 서식이 적용된 결과는 다음과 같다.

: A열은 제조사와 모델명으로 구성되어 있다.
: 자동차명 속성의 첫 번째 단어만 따서 제조사명에 해당하는 속성을 만들어볼 것이다.

  1. A열(Name) 오른쪽에 열 하나를 추가한다.

  2. B1셀에 'maker'라는 이름을 넣는다.

  3. B2셀에 =IFERROR(LEFT(A2, FIND(" ", A2)-1),"")를 입력한다.

  • FIND(" ",A2) : 이 함수는 자동차명 속성의 첫 번째 단어가 끝나는 위치 k를 찾는다.
    예 : FIND(" ", "Mazda RX4") -> 6
  • LEFT(A2, FIND(" ", A2)-1) : 자동차명 속성값에서 왼쪽부터 (k-1)개의 글자를 선택한다.
    예 : LEFT("Mazda RX4", 5) -> "Mazda"
  • IFERROR(LEFT(A2, FIND(" ", A2)-1), "") : 에러 발생을 대비해 빈칸("")을 넣는다.
    예 : IFERROR("Mazda", "") -> "Mazda"
  1. 'maker' 속성이 추가된 결과는 다음과 같다.

3. 데이터 분석 및 시각화하기

: 조건부 서식을 사용하면 셀 값에 따라 색상을 변경하거나, 셀 안에 간단한 차트를 넣을 수 있다.
: 셀 값의 분포를 한눈에 확인할 수 있다.

  1. 서식을 적용할 셀의 범위를 선택한다. 왼쪽 그림에서 'H'를 클릭하면 wt 속성 전체를 선택할 수 있다.

  2. [조건부 서식] 메뉴에서 적절한 서식을 고른다.

  3. 조건부 서식이 적용된 결과는 왼쪽과 같다.

: 변수 간의 관계를 시각적으로 확인하는 데 차트를 사용할 수도 있다.
: 두 수치형 변수 간의 관계를 시각화하는 데 적합한 스케터플롯을 사용한다.
: 마력(hp), 무게(wt)

  1. 시각화의 대상이 되는 속성 두 개를 선택한다. 따로 떨어진 두 개의 속성을 선택하기 위해서는 F를 클릭한 후, <Ctrl>을 누르고 H를 클릭한다.

  2. [삽입] 메뉴에서 '분산형'을 선택한다.

  3. 아래 그림은 마력(hp)과 무게(wt) 속성 간의 스케터플롯을 그린 결과다. 이 차트를 보면 마력과 무게 사이에 어느 정도의 상관 관계가 존재한다는 것을 알 수 있다.

  4. 마지막으로 차트 제목을 더블클릭하면 제목을 수정할 수 있다.

  5. 몇 개의 속성에 대해 시각화 작업을 완료한 결과는 다음과 같다.
    ▲ 조건부 서식(왼쪽)과 분산형 차트(오른쪽)을 적용한 화면

4. 데이터 집계하기

: 엑셀의 피벗 테이블은 데이터에 다양한 기준과 연산을 적용하여 집계하는 기능이다.
: mtcars 데이터 셋에 포함된 차들의 실린더, 모델, 그리고 변속기의 사양에 따른 연비를 알고 싶다면 피벗 테이블을 만들어야 한다.

  1. 작업 대상이 되는 데이터를 선택한다.

  2. 메뉴에서 [삽입/피벗 테이블]을 선택한다. '피벗 테이블 만들기' 창이 뜨면 <확인>을 누른다.

  3. 화면 오른쪽의 '피벗 테이블 필드'창에서 필터, 행, 열, 값으로 사용할 속성(그림에서는 필드)을 다음과 같이 선택한다.

  • 필터 : 테이블에 포함된 내용을 결정하는 속성
  • 행과 열 : 피벗 테이블의 집계 기준을 결정하는 속성
  • 값 : 피벗 테이블의 집계 대상을 결정하는 속성

: 피벗 테이블은 기본적으로 '합계'를 집계 방법으로 사용한다.
: 실린더 개수 및 변속기 종류에 따른 연비의 평균값을 확인해보자.

  1. 피벗 테이블의 '값' 속성 옆의 역삼각형 모양을 클릭하고 '값 필드 설정'을 누른다.

  2. 왼쪽 대화 상자에서 집계 방법을 결정할 수 있다. 이 예제에서는 평균을 사용하였다.

  3. 왼쪽 그림과 같이 피벗 테이블이 만들어졌다.
    * 피벗 테이블의 행과 열이 하나씩 더 추가되어서 만들어지는 문제가 발생하였다.
    위 테이블을 통해 실린더 및 기어 개수에 따른 연비를 한눈에 파악하는데 문제가 없기에 그대로 진행.

: 앞서 살펴본 피벗 테이블의 값을 바탕으로 '피벗 차트'라는 그래프를 생성할 수 있다.

  1. 작업 대상이 되는 피벗 테이블에 커서를 위치한다.

  2. [삽입/세로 막대형] 메뉴에서 '2차원 세로 막대형'의 맨 위 첫 번째 차트 유형을 선택한다.

  3. 기어 및 실린더 개수에 따른 연비 차트를 볼 수 있다. 피벗 차트는 현재 피벗 테이블의 내용을 그대로 시각화하므로, 피벗 테이블을 업데이트하면 차트에 바로 반영된다.

MS 본사 데이터 과학자가 알려주는 헬로 데이터 과학 삶과 업무를 바꾸는 생활 데이터 활용법

0개의 댓글