비정형 데이터 마이닝

duri·2024년 2월 19일

sna 텍스트마이님

ADP

목록 보기

17/18

1. 텍스트 마이닝

기능

문서분류 : 주제별로 문서의 내용에 따라 분류하는것. 사전에 주제를 아는 경우
문서군집 : 성격이 비슷한 문서끼리 같은 군집으로. 사전에 분류정보를 모르는경우
정보추출 : 문서에서 중요한 의미를 지닌 정보를 추출

과정

1. 텍스트 수집

2. 텍스트 전처리

데이터 마이닝 실험에 활용할 수 있는 상태로 정제.통합.선택.변환되어 구조화된 형태의 텍스트 데이터(코퍼스)로 만들어준다.
r에서는 tm 패키지를 사용한다.

자연어 처리에서 전처리의 지향점은 가지고 있는 코퍼스에서 복잡성을 줄이는 일이다. 다음과 같은 과정으로 진행된다.

토큰화

주어진 코퍼스에서 토큰의 단위로 나누는 작업을 수행한다. 어절.형태소.음질.자소로 나눌수 있다.
단어토큰화 / 어절토큰화 / 형태소토큰화 의 종류가 있다.

단어 토큰화 과정에서 단어의 의미를 파악하기 위해 품사를 붙이는 품사태깅 과정을 함게 진행한다

한글 자연어 처리를 위해서 r에서는 konlp 패키지를 사용하며 명사를 추출하기 위해 extractNoun 함수를 사용한다.

불용어처리

데이터에서 유의미한 단어 토큰만을 선별하기 위한 과정이다.

정제와 정규화

토큰화 작업 전 후로 텍스트 데이터를 용도에 맞게 정제(코퍼스로부터 노이즈 데이터를 제거) 및 정규화(표현방법이 다른 단어들을 통합해 같은 단어로 만들기) 한다.

규칙에 기반해 표기가 다른 단어를 통합
대소문자 통일
불필요한 단어의 제거
정규표현식

어근 추출

코퍼스에 있는 단어 개수를 줄일 수 있도록 어근으로 변환하는 과정을 거친다.
예시 ) (is, are) -> (be, be)

텍스트 인코딩

문서를 행렬로 변환

원핫인코딩 : 텍스트 내 n개의 단어를 각각 n차원의 벡터로 표현.
말뭉치 : 문서 내 단어의 순서를 고려하지 않고 횟수를 기록한 벡터를 만들어 횟수만으로 주제, 성격을 판단한다.
TF-IDF : 각 단어에 중요도(가중치)를 부여하여 문서의 유사도, 검색 결과의 중요도 결정등에 사용한다.
워드 임베딩 : 의미를 담아 단어를 벡터로 변환한다. 한 단어가 미리 정의되 ㄴ차원에서 연속형의 값을 갖는 벡터로 표현되어 비슷한 의미를 가진 단어를 유추할 수 있다.

3. 텍스트 분석

토픽 모델링

문서가 가지고 있는 여러 토픽을 찾아준다. 의미 연결망 분석의 일종

감성분석, 텍스트 분류, 텍스트 군집화

4. 텍스트 시각화

워드클라우드, 의미연결망분석

2. 사회연결망분석

개념

개인과 집단간의 관계를 노드와 링크로 모델링하여 위상구조와 진화과정을 분석한다.

구조 파악의 기법

중심성

연결정도 중심성 : 한점에 연결된 점의 합
근접 중심성 : 다른 노드에 도달하기까지 필요한 최소 단계의 합
매개 중심성 : 네트워크 내에서 한 점이 담당하는 매개자, 중재자 역할의 정도
위세중심성 : 자신의 연결정도 중심성으로부터 발생하는 영향력 + 타인의 영향력

밀도, 구조적틈새, 집중도

R에서 SNA

walktrap알고리즘
각 그래프의 꼭지점을 하나의 커뮤니티로 취급해 더 큰 흐름을 병합하면서 클러스터링함.
Edge betweenness method
그래프에 존재하는 최단거리 중 몇개가 그 엣지(링크)를 거쳐가는 지를 이용해 edge-betweenness 점수를 측정한다. 높을수록 클러스터를 분리하는 속성을 가진다고 가정한다.

duri

배우는중인 두리

이전 포스트

시계열분석

다음 포스트