Preprocessor

김은배·2024년 1월 19일

LLM 총정리

목록 보기

6/10

1. Preprocessor란?

- Neural Search를 위한 Chunk 생성 서비스

2. Chunk

- 문장을 작은 조각으로 분할하는 작업
- 텍스트나 문서에서 정보를 추출하거나 검색하는 작은 단위 
- Preprocessor로 문장을 의미적으로 유사한 단어나 구를 포함하는 단위로 분리

3. Preprocess 절차

1) Data source
2) 데이터 추출
3) Chunk 생성
4) 업로드

4. Chunk 생성

1) Chapter 선정 
	
    - Chunk를 구분하는 가장 큰 요소 
    - 무엇에 대한 Chunk인지 구분하기 위해 Chapter 사용
    - 일정 패턴을 통해 추출한 문장을 Chapter로 선정
    - 본문에 포함되어야 검색이 가능하므로 Chapter를 분리된 Chunk 본문에 추가 
    
2) Chunk Size
	
    - Chunk 길이를 적절하게 설정하는 것이 중요. 
    - Chunk Size를 너무 작게 설정하면, Chunk 개수가 불필요하게 증가함.
    - Chunk Size를 너무 크게 설정하면, 정보 검색 시 불필요한 정보까지 가져올 수 있음

5. Chunk 업로드

1) 생성된 Chunk를 Vector DB 등에 업로드

6. Layout Parser

1) PDF 문서 레이아웃 분석에 사용 
2) PDF 분석 성능 향상을 위해 추가 학습 필요 
3) Labeling은 기존 학습 데이터의 충돌을 피하기 위해 정확한 Indexing이 필요
4) YOLO 이미지 labeling 후, COCO dataset format으로 변환하여 학습

김은배

hello!

이전 포스트

LLM Colab 실습

다음 포스트

Preprocessor

LLM 총정리

1. Preprocessor란?

2. Chunk

3. Preprocess 절차

4. Chunk 생성

5. Chunk 업로드

6. Layout Parser

LLM Colab 실습

HDFS

0개의 댓글