[청년취업사관학교 새싹]핀테커스 수업 1주차(8/29 Day-2)

장민정·2023년 8월 29일
0
post-thumbnail

<수업 내용>

[데이터 정제(엑셀 데이터)-파워쿼리]

  • raw data를 가공하여 의미있는 data로 만드는 것
  • data 시각화를 위해서는 sheet단위로 작업하기 보다는 한 파일로 작업하는 것이 유용함

1. 파워쿼리를 통해 sheet들의 data를 하나의 sheet로 통합

  1. 새 엑셀 파일 열기
  2. [데이터] > [데이터 가져오기] > [파일에서] > [통합문서에서]
  3. 탐색창 : 하위 목록이 아닌, 폴더를 선택 > [데이터 변환]
  4. 파워쿼리 편집기 : Data 열 헤더 선택 > 마우스 우클릭 > [다른 열 제거]
  5. 펼치기 아이콘 > 추가로드
  6. [첫 행을 머리글로 사용]
    - sheet 마다 헤더가 행으로 삽입되어 있을 경우
    - 아래방향 화살표 아이콘 > null, date 값 해제
  7. 데이터 형식 설정 : 날짜, 정수 등
  8. [닫기 및 로드]
  • sheet data를 추가로 받게 된다면
    - 데이터 > [새로 고침] 혹은 데이터 내에서 마우스 우 클릭 > [새로 고침]

2. 파일 끼리의 통합

  1. 새 엑셀 파일 열기
  2. [데이터] > [데이터 가져오기] > [파일에서] > [폴더에서]
  3. [데이터 변환]
  4. 파워쿼리 편집기 : 필요한 파일을 제외한 다른 파일은 행제거를 통해 삭제 혹은 Name열의 아래 방향 화살표 아이콘> 필요한 파일만 선택> Data 헤더 마우스 우 클릭> [다른 열 제거]
  5. 이하 동일

3. 반정형 데이터를 정형화 하기

  1. 데이터 > 데이터 가져오기 > 테이블 범위에서 > 머리글 포함 체크 해제
  2. 파워쿼리 편집기 : 열 추가 > 조건열 > 조건을 입력
  3. 생성된 열 우 클릭 > 채우기 > 아래로
  4. 불필요한 행은 선택해제로 없애기
  5. 기존 데이터 셋을 변경하면 정형화한 데이터 셋을 새로고침 시 업데이트 가능

4. 텍스트 추출하기

  1. 데이터 > 데이터 가져오기 > 테이블 범위에서 > 머리글 포함 체크
    2.변환 > 추출 >구분기호 사이 텍스트 > 고급옵션 >시작 구분 기호 스캔 > 입력 시작부터 (역방향으로 데이터를 읽는다)

5. 피벗열을 해제하기

  • 한 열에는 하나의 정보를 담도록 해야한다. 여러 정보를 집계한 열을 해제하는 작업을 진행해야 한다.
  1. 데이터 > 데이터 가져오기 > 테이블 범위에서 > 머리글 포함 체크
  2. 파워쿼리 편집기 : 변환 > 집계가 된 열 선택 > 열 피벗 해제
  3. 열 분할 : Box A-1 과 size 분할 (구분 기호에 따라 열 분할 > 공백 기준 > 맨 오른쪽 구분 기호에서

6. 피벗열을 만들기

  1. 파워쿼리 편집기 : 변환 > 집계할 열 선택 > 이름이 될 열 선택 > 피벗 열 > 값이 될 열 선택 >고급 옵션 > 값 집계 함수 (집계 안함)

[데이터 정제(메모장 데이터)-파워쿼리]

  1. 데이터 > 데이터 가져오기 > 파일 에서> 텍스트/CSV
    파일원본 > 유니코드(UTF-8)
  2. 파워쿼리 편집기 : 열 추가 > 조건 열 (날짜 열 생성) > 채우기 >아래로
  3. 주문상품에 대한 조건열 추가 >null값 해제

[소셜데이터 분석]

* 소셜 데이터 :소셜 웹 상에서 실시간으로 발생하는 공개적인 데이터

* 사례 : 소비자의 선호를 분석하여 아이보리색 플리스 재킷 상품 개발

* 역할 : 대중의 솔직한 생각 및 반응 파악. 트렌드 예상. 타깃 마이닝

1. 구글트렌드

  • 백분률로 검색량을 상대수치로 나타낸다
    • 계절성이 뚜렷히 나타나는 검색어

    • 검색량의 추이를 살피는데 있어 기간의 설정에 따라 해석이 상이할 수 있다

2. 네이버 데이터랩

  • 쇼핑 검색어에 특화

  • 하위어를 같이 입력 할 수 있다

    • 주제와 목적에 맞는 기간, 연령, 키워드 등의 옵션 설정이 관건
  • 검색어 :매매, 전세, 월세, 이사

    • 여성, 19~34세, 지난 1년, 주간으로 설정한 결과
    • 남성, 19~34세, 지난 1년, 주간으로 설정한 결과

      남성과 여성 모두 월세보다 전세에 관심도가 높다는 인사이트를 얻음

[조별 실습]

검색어 : BTS, 트와이스, 유재석

  • 여성, 13~39세, 2016~현재, 주간으로 설정한 결과
  • 남성, 13~39세, 2016~현재, 주간으로 설정한 결과
    • BTS는 여성에게, 트와이스는 남성에게 더 인기가 많았다.
    • 유재석을 중립적인 변수로 가정했을 때 BTS와 트와이스에 대한 관심은 남성보다 여성에게 더 많았다.
    • BTS 멤버들의 군입대, 활동 휴식기에 따라 최근 BTS에 대한 관심도가 낮아지고 있다.

3. 썸트렌드

  • 언급량이 수치화되어 나온다
  • 연관어 분석 가능

4. 카카오 데이터트렌드

  • 블랙핑크, BTS, 트와이스 순으로 검색량이 많은 추이를 보였다
  • 10~30대보다 40~50대가 BTS, 트와이스, 블랙핑크에 대한 검색량이 많았다
  • 트와이스, 블랙핑크는 남녀에게 골고루 검색된 반면 BTS는 남성과 여성의 선호도가 상대적으로 큰 차이를 보였다

<오늘 내가 잘한점>

  • 조별 실습시간이 주어졌을 때 적극적으로 의견을 내고 공유하였으며 발표를 진행하였다. 적극적인 자세로 수업에 임하였다.
  • 네이버 데이터랩을 활용한 실습과정에서 두 장표의 시각화 결과물이 상대적인 검색비율과 그 추이를 나타내는 것이었는데, 절대적인 양으로 착각하고 의견을 제시하였다. 하지만 발표시에 이를 바로 정정하였고 강사님께서 이에 대한 보완책을 알려주셨다. 실습시간이 짧다보니 급하게 의견을 제시하는 과정에서 실수가 있었으나 더 깊게 생각해보니 바로 잡을 수 있었던 것 같다.

<앞으로 개선해야 할 점>

  • 조별 실습에서 비즈니스 측면으로 접근하지 못한점이 아쉬웠다. 시간이 짧긴 했지만 더 유의미한 인사이트를 발견했더라면 좋았을 것 같다. 개인적으로 데이터 분석의 최종 목적이 비즈니스 인사이트 도출이라고 생각하고 있기 때문에 항시 이 관점을 바탕으로 데이터를 보고자 노력해야 겠다.

0개의 댓글