자연어 처리

모와이·2026년 1월 19일

llm

목록 보기

2/20

전처리

모델의 성능과 학습 속도에 큰 영향을 미침
일관성 있는 데이터 형식을 제공해 모델이 효율적으로 학습 가능

어휘 크기 (vocab), oov -> 학습 안정성
max_df, min_df => 과하게 정보를 지우면 필요한 정보도 같이 사라질수있다
ex : 히히히/ㅋㅋㅋㅋ/하하하 -> ㅋㅋ or 삭제

원시 데이터 처리

코퍼스 원시 텍스트

원시 텍스트는 코퍼스를 분석하기 전 불필요한 기호나 공백 등을 포함한 상태
이를 처리해 분석 가능한 상태로 변환
필요 작업
- 불필요한 기호 제거
- 소문자 변환(일관성 유지)
- 공백 제거

코퍼스 원시 문장 처리

원시 문장 처리는 텍스트 데이터를 문장 단위로 분리
문장 끝 기호 (. ! ?)를 기준으로 문장 나눔 but, Dr.John, e.g., 3.14는 애매

split() => tokenizer

기본 전처리

텍스트 데이터를 정제하는 초기 단계로 특수문자 제거 - 숫자 제거 - 불용어 제거 단계로 이어진다
실제 데이터에서는 도메인에 따른 맞춤형 전처리가 필요(제거 /남길지 / 다른 토큰으로 치환할지)

텍스트 정규화

목적 : 텍스트를 일관된 형태로 변환하여 처리 용이성을 높인다
주요 작업 : 모든 문자 소문자 변환(혹은 대문자)

토큰화

목적 : 문장을 단어 또는 하위 단어로 분할 분석
방법 : 단순 공백 기준 분할 / 형태소 분석기 사용 분할 /서브워드

불용어 제거
-목적 : 의미에 크게 기여하지 않는 단어 제거(노이즈 줄임) : "은" / "는" / "이" / "가"
어간 추출 및 표제어 추출

stemming : played(play, ed)
lemmatization : better -> good(기본형 찾아줌)

KoNLPy 활용

한국어 자연어 처리 지원 라이브러리

형태소 분석기 종류

Okt : 트위터 형태소 분석기
Mecab : 빠른 처리 속도와 정확도
Kkma : 자세한 형태소 분석 결과 제공

공부하는거 정리하는 블로그

이전 포스트

자연어

다음 포스트

자연어 데이터 준비

0개의 댓글