[새싹(SeSAC) AI데이터엔지니어 핀테커스2기] DAY2 :: 노코드 데이터분석 - 엑셀 파워쿼리 실습/소셜 데이터 분석

켈로그·2023년 8월 29일
0

오늘은 오프라인 수업
아침에 한 시간 더 자는게 이렇게 행복한 일이라는 걸
둘째날부터 깨달아버렸다..
나 집 좋아했네 ㅋ


엑셀 파워쿼리 실습

1-1. 엑셀 시트 통합하기

같은 형식의 데이터들이 각기 다른 시트에 있을 때, 하나의 시트로 합치기

우선 새로운 엑셀 파일을 만들어야 함

만든 새 엑셀 파일에서

‘데이터 → 데이터 가져오기 → 파일에서 → Excel 통합 문서에서’
(버전에 따라 ‘파워쿼리 → 새 쿼리 → 파일에서 → Excel 통합 문서에서' 인 경우도 있음)

이름(item), 종류(kind) 등의 항목은 필요 없고 내용만 필요하므로 ‘Data 헤더 우클릭 - 다른 열 제거’로 나머지 열은 제거해준다

확장 표시를 눌러서 내용물 불러오고

데이터의 첫 행을 헤더로 바꾸기 : ‘파일’-’첫 행을 머리글로 사용’

불필요한 값(null값)은 제거해주기

결과

1-2. 엑셀 파일 병합하기

상반기, 하반기 두 개의 엑셀 파일을 병합하기

마찬가지로 새 엑셀 파일 만들어주고, 이번엔

‘데이터 가져오기 - 파일에서 - 폴더에서’

병합할 파일이 있는 경로 선택 후 ‘데이터 변환’

Content에서 하위 내용 불러오기 : '매개 변수'에는 각 파일의 시트가 들어있음

이후 각 시트별 내부(하위) 데이터(테이블)도 불러오기

2. 조건 열로 반정형 데이터 정형 데이터 만들기

<변경 전>

정형도 비정형도 아닌 semi-structure table

<변경 후(목표)>

정형화된 테이블로 만들어보자

이번엔 새 파일이 아닌 원본 파일에서

‘데이터’ - ‘데이터 가져오기’ - ‘기타 원본에서’ - ‘테이블/범위에서’

조건 열

조건부 형식을 이용하여 열 추가하기 : 맨 마지막에 감독 이름을 하나의 열로 구분지어 추가하기 위해 조건형식을 이용해 열 추가

코드로 살펴보면

열1에서 “이름”에 해당하는 행의 ‘열2’ 값((1행 2열), (5행2열))을 ‘사용자 지정’이라는 이름의 새 열의 출력값으로 쓰겠다는 뜻.

(단, 출력할 값을 ‘열’로 지정하려면 결과 옆의 아이콘을 눌러서 ‘열 선택’으로 바꿔줘야 함)

따로 지정하지 않으면 ‘이름’에 해당하지 않는 행(행2,3,4,6,7)의 열2값들은 null이 된다.
(행렬로 따지면 (2행2열) (3행2열) (4행2열) (6행2열) (7행2열) 은 null 처리 한다는 뜻)

null "값 채우기"

null이 아닌 칸의 값을 밑으로 채워주자

이제 ‘열1’에서 필요 없어진 ‘이름’ 행을 없애자.

방법1) ‘열1’ 화살표 클릭 - ‘이름’ 항목 선택 해제

방법2) ‘열2’ 에서 김기덕, 봉준호 선택 해제

헤더 이름까지 ‘감독 이름’으로 바꿔주면 끝

3. 엑셀 테이블에서 특정 텍스트 추출

원본 파일에서

‘데이터’ - ‘데이터 가져오기’ - ‘기타 원본에서’ - ‘테이블/범위에서’

'Goods *' 을 가져오자

텍스트 추출

아이디어 : 각 Goods * 앞뒤로 괄호가 있음 ⇒ 괄호(구분기호) 사이의 텍스트를 추출하면 된다.

💡 ‘변환’ - ’텍스트’ - ‘추출’ - ’구분 기호 사이 텍스트’

  • 주의 : 2행의 (bb), 4행의 (bd) 처럼 괄호 사이에 텍스트가 있는 경우가 또 있다. 원래는 텍스트 추출 시 입력의 맨앞에서부터 스캔한다. Goods * 들은 모두 마지막에 있으므로 스캔을 끝부터 해주면 된다.

4. 피벗열 → 언피벗 기능 사용하기

각 Goods를 Box, Size, Qty(Quality) 각 특성으로 집계하고싶음

Box *-*N* Size, Box *-*N* Qty 으로 구분된 여러 개의 헤더를 Box *-N, Size, Qty 세 가지로 바꾸자

‘데이터’ - ‘데이터 가져오기’ - ‘기타 원본에서’ - ‘테이블/범위에서’

열 피벗 해제

‘열1’을 제외한 나머지 헤더는 모두 헤더에서 해제하자

방법1) 남겨둘 헤더 우클릭 - ‘다른 열 피벗 해제’

방법2) 헤더에서 해제할 헤더들 다중 선택 후 ’변환’ - ’열 피벗 해제’

헤더가 ‘특성’, ‘값’으로 바뀌었지만

Box -N*과 Size/Qty 가 한 번에 집계되어있음

열 분할

Box *-*N* Size, Box *-*N* QtyBox *-N, Size, Qty 로 분할하자

아이디어 : Box*-N과 Size/Qty 사이에 공백이 있으므로 공백을 기준으로 분할하면 됨.

‘변환’ - ‘텍스트’ - ‘열 분할’ - ‘구분 기호 기준’

단, Box와 A/B/C 사이에도 공백이 있으므로 맨 왼쪽부터 탐색하면 Box, *-*N* Size,*-*N* Qty로 분할됨

맨 오른쪽부터 공백을 탐색 후 발견하면 구분하도록 설정

피벗 열 만들기 (언피벗 열 → 피벗 열)

피벗 열 만들기 (언피벗 열 → 피벗 열)

‘특성.2’열의 Size와 Qty를 각각 집계하려 하므로, Size값과 Qty값을 피벗 열(헤더)로 만들자

‘변환’ - ‘열’ - ‘피벗 열’

이 때, 값 집계 함수는 '집계 안 함'

결과


소셜 데이터 분석

소셜 빅데이터 : 각종 소셜 미디어에서 실시간으로 발생하는 공개적인 글

소셜 분석 : 개인의 기록 → 사회 현상

<소셜 데이터 분석 사이트>

  1. 구글 트렌드
  2. 네이버 데이터랩
  3. 썸트렌드
  • 이상치 등을 주의하여 인사이트 도출할 것
profile
호랑이기운

0개의 댓글