BI 기말 최종 정리

홍준표·2025년 12월 8일

텍스트 마이닝(9주차)

텍스트로부터 숨어있는 지식들을 발굴해 내는 기술
*비정형 데이터로부터 정형데이터를 만들어 유의미하게 이용

전체적 프로세스

웹크롤링(데이터 수집): 웹사이트, 이메일 등 비구조적 원시데이터
텍스트 전처리(데이터 전처리): 구조적 유형으로 변환
토픽 분석(데이터 분석): 군집화, 분류 등의 모든 설명적, 예측적 기법을 사용

텍스트 전처리

토큰화: 뛰어쓰기 단위로 잘라냄
정규화: 모두 소문자로 변환
불용어 제거: "a", "the", "!"등 특별한 의미가 없는 단어 제거(불용어 사전을 이용함)

문서화 / Term Document Matrix

문서(문장)을 텍스트 전처리 과정을 통해 매트릭스 형태로 나타낸다

문장 유사도 계산

코사인 유사도를 이용한다.
$\cos(q, d) = \frac{d \cdot q}{\| d \| \cdot \| q \|}$

ex)
Document 1: dark blue jeans blue denim fabric
Document 2: skinny jeans in bright blue
Query: dark jeans

	dark	blue	jeans	denim	fabric	skinny	in	bright	$\\| \cdot \\|$ (크기)
$d_1$	1	1	1	1	1	0	0	0	$\sqrt{5}$
$d_2$	0	1	1	0	0	1	1	1	$\sqrt{5}$
$q$	1	0	1	0	0	0	0	0	$\sqrt{2}$

문장 유사도 계산 결과

$\cos(\mathbf{q}, \mathbf{d}_1) = \frac{1 + 1}{\sqrt{2}\sqrt{5}} = 0.632$

$\cos(\mathbf{q}, \mathbf{d}_2) = \frac{1}{\sqrt{2}\sqrt{5}} = 0.316$

TF IDF

특정 단어가 문서에서 얼마나 중요한지 계산할 때 사용

TF

TF: term frequency, 특정 단어가 특정 문서에서 사용된 횟수 (비율)

IDF

DF: document frequency, 특정 단어가 사용된 문서의 수
일반적으로 많은 문서에서 동시 출현하는 빈도가 높을수록 중요도가 떨어지기에 역수값을 취한 IDF를 사용한다.

TF-IDF

흔하지 않은 단어인데 특정 텍스트에서 자주 사용될수록 큰 값을 가짐
$w_{i,j} = tf_{i,j} \times \log \left( \frac{N}{df_i} \right)$

계산 예

S.No.	Sentences
1.	inflation increased unemployment
2.	company increased sales
3.	fear increased pulse

TF

Words	inflation increased unemployment	company increased sales	fear increased pulse
inflation	1/3	0/3	0/3
company	0/3	1/3	0/3
increased	1/3	1/3	1/3
sales	0/3	1/3	0/3
fear	0/3	0/3	1/3
pulse	0/3	0/3	1/3
unemployment	1/3	0/3	0/3

IDF

Words	Inverse Document Frequency (IDF)
inflation	$\log(3/1) = 0.477$
company	$\log(3/1) = 0.477$
increased	$\log(3/3) = 0$
sales	$\log(3/1) = 0.477$
fear	$\log(3/1) = 0.477$
pulse	$\log(3/1) = 0.477$
unemployment	$\log(3/1) = 0.477$

TF-IDF

	inflation	company	increased	sales	fear	pulse	unemployment
inflation increased unemployment	$1/3 \times 0.477$	$0/3 \times 0.477$	$1/3 \times 0$	$0/3 \times 0.477$	$0/3 \times 0.477$	$0/3 \times 0.477$	$1/3 \times 0.477$
company increased sales	$0/3 \times 0.477$	$1/3 \times 0.477$	$1/3 \times 0$	$1/3 \times 0.477$	$0/3 \times 0.477$	$0/3 \times 0.477$	$0/3 \times 0.477$
fear increased pulse	$0/3 \times 0.477$	$0/3 \times 0.477$	$1/3 \times 0$	$0/3 \times 0.477$	$1/3 \times 0.477$	$1/3 \times 0.477$	$0/3 \times 0.477$

TF-IDF, BOW 장단점

장점: 비교적 단순하며, 문서의 특징을 효울적으로 포착
단점: 단어의 순서를 고려하지 않기 떄문에 문맥적인 의미가 무시됨. 희소 행렬 발생

해소 방안

최근 사용되는 Bert, GPT등의 딥러닝 계열 텍스트 마이닝은 워드 임베딩 기반의 구조화된 기법을 사용.
이는 각 단어들을 벡터로 표현한 후, 순서대로 입력값으로 사용함

텍스트 마이닝 실습

개요

영화 리뷰의 감성 분석

데이터: 영화 리뷰데이터로 긍정/부정 극성을 포함
목적: 상품평을 TF-IDF의 구조호된 형태로 변환
TF-IDF를 활용하여 의사결정나무로 긍정/부정을 분류하는 감성 분석

프로세스 화면

프로세스 도큐먼트 서브 프로세스

토픽 모델링(10주차)

개념

텍스트를 분석해 문서 속의 주제들을 찾아내기 위한 통계추론에 기바한한 분석 기법
개별 문서는 여러 주제들로 구성되어있다고 가정. 즉 각 문서는 토피들의 확률적 혼합체로 간주함
ex)
문서1: 온난화(0.2), 탄소배출(0.5), 전기차(0.3)
문서2: 온난화(0.3), 빙하기(0.4), 생태계(0.3)
토픽분석의 시초는 LSA(Latent Semantic Analysis)이며, 가장 많이 사용되는 모델은 LDA(Latent Dirichlet Allocation)임

LDA(잠재디리클레할당)모델

디리클레(Dirichlet): 확률분포의 명칭
전체 문서들의 주제(토픽) 추출, 각 주제들를 구성하는 단어들, 각 문서별 주제들의 비율을 파악
토픽들이 도출되지만, 각 토픽의 이름은 여구자가 직접 붙여줘야함

토픽 모델링의 활용

대량의 문서들을 직접 읽어보지 않고도 주제를 파악
문서들을 주제별로 분류할 수 있음
토픽을 구성하는 주요 단어를 통한 키워드 파악이 가능함
그외, 시기별 토픽 모델링을 수행하여 issue tracking을 수행하는 등 활용성이 높음. 예를 들어 SNS글들을 년도별로 토픽모델링하면, 매해 주요 관심 이슈의 변화를 파악할 수 있음.

토픽모델링 실습

개요

워드클라우드&토픽모델링 실습

데이터 수집: 네이버 뉴스에서 수집한 외국인 노동자 관련기사 1,025건
데이터 전처리 파일: 외국인 노동자(명사).txt[전처리완료된 데이터]

토픽모델링(LDA) 프로세스

워드클라우드 프로세스

데이터시각화1 (11주차)

개요

같은 데이터셋(평균, 분산, 상관계수, 회귀식이 동일)을 이용해 그래프를 그려도 차이가 발생할 수 있음.
즉 데이터를 분석 전에 그래프로 확인해 볼 필요가 있음

시각화의 기능

효과적으로 데이터를 보여주기
공유와 설득을 용이하게
데이터에서 가장 중요한 부분을 강조하여
시각화를 활용한 분석 -> 데이터의 패턴 파악에 효과적

좋은 디자인에 대한 고민: 단순화

단순한 색상 구성
주요 트랜드에 집중
일관된 스타일과 형태
텍스트 단순화

좋은 디자인에 대한 고민: 선택적 레이블링

좋은 디자인에 대한 고민: Multiples

태블루 사용법

A. 왼쪽 패널 - 연결된 데이터 원본과 데이터에 대한 기타 세부 정보 표시
B. 캔버스 - 데이터 원본 설정 방법과 데이터 결합 옵션에 대한 정보를 표시
C. 데이터 그리드 - Tableau 데이터 원본에 포함된 데이터의 첫 1,000개 행을 표시
D. 메타데이터 그리드 - 데이터 원본의 필드 정보 표시(변수 타입 변경 까지)

병합(Join)

inner(내부조인)

두 테이블 모두에 일치 항목이 있는 값으로 구성된 테이블

Left(왼쪽 조인)

왼쪽 테이블의 모든 값과 오른쪽 텡블에서 해당하는 일치 항목으로 구성

Right(오른쪽 조인)

상동

Full outer join(완전외부)

두 테이블의 모든 값 포함

조인 예시

테이블1

ID	이름	성	출판사 유형
20034	Adam	Davis	Independent
20165	Ashley	Garcia	Big
20233	Susan	Nguyen	Small/medium

테이블 2

제목	가격	로열티	ID
Weather in the Alps	19.99	5,000	20165
My Physics	8.99	3,500	20800
The Magic Shoe Lace	15.99	7,000	20034

이너조인

ID	이름	성	출판사 유형	제목	가격	로열티	ID
20034	Adam	Davis	Independent	The Magic Shoe Lace	15.99	7,000	20034
20165	Ashley	Garcia	Big	Weather in the Alps	19.99	5,000	20165

아우터조인

ID	이름	성	출판사 유형	제목	가격	로열티	ID
20034	Adam	Davis	Independent	The Magic Shoe Lace	15.99	7,000	20034
20165	Ashley	Garcia	Big	Weather in the Alps	19.99	5,000	20165
20233	Susan	Nguyen	Small/medium
20800				My Physics	8.99	3,500

left조인

ID	이름	성	출판사 유형	제목	가격	로열티	ID
20034	Adam	Davis	Independent	The Magic Shoe Lace	15.99	7,000	20034
20165	Ashley	Garcia	Big	Weather in the Alps	19.99	5,000	20165
20233	Susan	Nguyen	Small/medium

right 조인

ID	이름	성	출판사 유형	제목	가격	로열티	ID
20034	Adam	Davis	Independent	The Magic Shoe Lace	15.99	7,000	20034
20165	Ashley	Garcia	Big	Weather in the Alps	19.99	5,000	20165
20800				My Physics	8.99	3,500

화면 소개

열 및 행 선반
- 행 또는 열 선반에 차원을 배치하면 해당 차원 멤버의 머리글이 만들어짐. 복수 개 가능
마크 카드
- 마크 카드는 Tableau의 시각적 분석을 위한 핵심 요소로, 마크유형, 색상, 크기, 모양, 텍스트 및 세부정보등을 설정. 마크 카드의 여러 속성에 필드를 끌어 놓으면 뷰의 마크에 컨텍스트 및 세부 정보가 추가됨.
필터 선반
- 포함하거나 제외할 데이터를 지정
페이지 선반
- 특정 필드가 뷰의 나머지 데이터에 미치는 영향을 쉽게 분석할 수 있도록 분석. 우측에 페이지 컨트롤이 추가되며, 이를 활용하여 페이지 탐색

데이터 계층

주소, 제품 등 많은경우, 데이터가상하위로구성됨
• Ex. 국가-시도-군구 /제품군-하위범주-제품명
계층구성후일괄관리가능

실습

실습1

연도별 총 매출액을 분석하시오

실습2

아시아 태평양 시장에서 반품 정보만 확인하고자할 떄

"시장"을 드래그하여 필터에 위치 - 아시아 태평양 선택

실습3

전세계“지역”별로어떤“범주”의어떤“하위범주”(segment)제품들이몇개(quantity)팔렸는지그래프로작성하시오.
“시장” 별로색상을다르게표시하시오.
•행: Category(범주), Segment(하위범주) /열: Market(지역), 합계(수량)설정
•지역을Color로드래그
2022년자료만표시하시오

시각화2 (12주차)

워드클라우드

특정 차원(dimension)필드를 지정된 측장값(measure) 기준에 따른 크기로 나타내기

워드클라우드로나타내고자하는차원(dimension)을 마크카드의텍스트에드래그해서위치
크기로설정하고자하는필드를마크카드의크기에드래그해서위치
크기에있는필드는측정값(measure)이어야동작함
마크타입을채워진맵, 버블, 텍스트등으로선택가능
워드클라으두의마크카드의색상을설정

워드클라우드 실습

동영상 보고 추가할것(미완!!!!!!!!!!!!!!!!!!!!!!)

맵기능

개요

Tableau의 맵기능은 내부 보유DB로 국가, 주/시/도, 도시 등을 자동으로 인식할 수있음.
DB에 등록되어있지않은지명은자동인식이안되며, 이경우, 약자, 스펠링오류, 동일한지명
등의문제로인식이안되는것일수있음.
그외, 회사의지점등, 세부 지역은DB에없기때문에, 위경도를넣어 주어야표기됨. – (ex. 서울과학기술대학교)
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
위치는기본적으로마크(Mark)로 표시됨.
그러나, 국가(Country), 시/도(State), 우편코드등은 채워진 맵으로 표시가 가능함.
단, 도시 또는 군/구(City) level에서는 채워진 맵 사용 안됨.
Mapbox통합: 위도를 추가한 후, 추가한 위도의 우측에서 이중축으로 설정하면 두개의
서로다른맵을합칠수도있음