오늘은 오프라인 수업
아침에 한 시간 더 자는게 이렇게 행복한 일이라는 걸
둘째날부터 깨달아버렸다..
나 집 좋아했네 ㅋ
같은 형식의 데이터들이 각기 다른 시트에 있을 때, 하나의 시트로 합치기
우선 새로운 엑셀 파일을 만들어야 함
만든 새 엑셀 파일에서
‘데이터 → 데이터 가져오기 → 파일에서 → Excel 통합 문서에서’
(버전에 따라 ‘파워쿼리 → 새 쿼리 → 파일에서 → Excel 통합 문서에서' 인 경우도 있음)
이름(item), 종류(kind) 등의 항목은 필요 없고 내용만 필요하므로 ‘Data 헤더 우클릭 - 다른 열 제거’로 나머지 열은 제거해준다
확장 표시를 눌러서 내용물 불러오고
데이터의 첫 행을 헤더로 바꾸기 : ‘파일’-’첫 행을 머리글로 사용’
불필요한 값(null값)은 제거해주기
결과
상반기, 하반기 두 개의 엑셀 파일을 병합하기
마찬가지로 새 엑셀 파일 만들어주고, 이번엔
‘데이터 가져오기 - 파일에서 - 폴더에서’
병합할 파일이 있는 경로 선택 후 ‘데이터 변환’
Content에서 하위 내용 불러오기 : '매개 변수'에는 각 파일의 시트가 들어있음
이후 각 시트별 내부(하위) 데이터(테이블)도 불러오기
<변경 전>
정형도 비정형도 아닌 semi-structure table
<변경 후(목표)>
정형화된 테이블로 만들어보자
이번엔 새 파일이 아닌 원본 파일에서
‘데이터’ - ‘데이터 가져오기’ - ‘기타 원본에서’ - ‘테이블/범위에서’
조건부 형식을 이용하여 열 추가하기 : 맨 마지막에 감독 이름을 하나의 열로 구분지어 추가하기 위해 조건형식을 이용해 열 추가
코드로 살펴보면
열1에서 “이름”에 해당하는 행의 ‘열2’ 값((1행 2열), (5행2열))을 ‘사용자 지정’이라는 이름의 새 열의 출력값으로 쓰겠다는 뜻.
(단, 출력할 값을 ‘열’로 지정하려면 결과 옆의 아이콘을 눌러서 ‘열 선택’으로 바꿔줘야 함)
따로 지정하지 않으면 ‘이름’에 해당하지 않는 행(행2,3,4,6,7)의 열2값들은 null이 된다.
(행렬로 따지면 (2행2열) (3행2열) (4행2열) (6행2열) (7행2열) 은 null 처리 한다는 뜻)
null이 아닌 칸의 값을 밑으로 채워주자
이제 ‘열1’에서 필요 없어진 ‘이름’ 행을 없애자.
방법1) ‘열1’ 화살표 클릭 - ‘이름’ 항목 선택 해제
방법2) ‘열2’ 에서 김기덕, 봉준호 선택 해제
헤더 이름까지 ‘감독 이름’으로 바꿔주면 끝
원본 파일에서
‘데이터’ - ‘데이터 가져오기’ - ‘기타 원본에서’ - ‘테이블/범위에서’
'Goods *' 을 가져오자
아이디어 : 각 Goods * 앞뒤로 괄호가 있음 ⇒ 괄호(구분기호) 사이의 텍스트를 추출하면 된다.
💡 ‘변환’ - ’텍스트’ - ‘추출’ - ’구분 기호 사이 텍스트’
각 Goods를 Box, Size, Qty(Quality) 각 특성으로 집계하고싶음
⇒ Box *-*N* Size
, Box *-*N* Qty
으로 구분된 여러 개의 헤더를 Box *-N
, Size
, Qty
세 가지로 바꾸자
‘데이터’ - ‘데이터 가져오기’ - ‘기타 원본에서’ - ‘테이블/범위에서’
‘열1’을 제외한 나머지 헤더는 모두 헤더에서 해제하자
방법1) 남겨둘 헤더 우클릭 - ‘다른 열 피벗 해제’
방법2) 헤더에서 해제할 헤더들 다중 선택 후 ’변환’ - ’열 피벗 해제’
헤더가 ‘특성’, ‘값’으로 바뀌었지만
Box -N*과 Size/Qty 가 한 번에 집계되어있음
Box *-*N* Size
, Box *-*N* Qty
를 Box *-N
, Size
, Qty
로 분할하자
아이디어 : Box*-N과 Size/Qty 사이에 공백이 있으므로 공백을 기준으로 분할하면 됨.
‘변환’ - ‘텍스트’ - ‘열 분할’ - ‘구분 기호 기준’
단, Box와 A/B/C 사이에도 공백이 있으므로 맨 왼쪽부터 탐색하면 Box
, *-*N* Size
,*-*N* Qty
로 분할됨
⇒ 맨 오른쪽부터 공백을 탐색 후 발견하면 구분하도록 설정
‘특성.2’열의 Size와 Qty를 각각 집계하려 하므로, Size값과 Qty값을 피벗 열(헤더)로 만들자
‘변환’ - ‘열’ - ‘피벗 열’
이 때, 값 집계 함수는 '집계 안 함'
소셜 빅데이터 : 각종 소셜 미디어에서 실시간으로 발생하는 공개적인 글
소셜 분석 : 개인의 기록 → 사회 현상
<소셜 데이터 분석 사이트>