[Paper Review] Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation

강현구·2025년 3월 14일

NLP

Paper Review

목록 보기

17/20

Segment Any Text (SAT): A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation

1. Introduction

문제 정의

문장 분리 Task (Sentence Segmentation)

기존 연구 동향

1. Rule-Based Approach

구두점을 활용하여 문장 분리 (Moses, Spacy)
If-else 로 사람이 정한 규칙에 따라 분리하는 접근법 (모델 활용 X)
구두점이 없는 텍스트(ASR, SNS 등)에 대한 성능 저하

2. Supervised Approach

구두점을 활용하여 문장 분리
모델 활용하여 분리 (모델 활용 O)
구두점에 매우 의존한다는 한계

3. Unsupervised Approach

구두점의 패턴을 학습하여 문장 분리
낮은 정확도, 비정형 텍스트에서 활용도 매우 낮음

기존 연구의 한계

구두점에 의존 - 구두점 부재시 성능 저하
도메인 적응력 부족 - 특정 도메인에서의 성능 저하
비효율성 - 최신 모델일수록 모델이 무거워지고, 성능저하에 의해 실용성 부족

SAT 제안

(구두점 의존성) - 구두점을 랜덤하게 제거하여 구두점 없이 동작

(도메인 적응력) - LoRA finetuning

(비효율성) - Subword based Model로 한번에 여러 문자처리하여 속도향상 + Lookahead를 적용하여 문장 분리에 있어 너무 먼 미래를 보지 않게 제한 걸어둠

2. Method

SAT는 XLM Roberta 모델을 finetuning 한 것임.

Finetuning 방법

XLM-Roberta 모델을 활용하여 문장 분리 - 다국어 지원 가능
문자 단위가 아닌 subword 단위로 학습 수행 - WtP 대비 3배 속도 향상
학습 데이터 10% 가량 모든 구두점, 대소문자 제거 + 공백을 random 변형 - 구두점 없어도 됨
Lookahead 기법으로 최대 토큰 48개로 제한 - 긴문장, 짧은 문장 모두 잘 구분함
finetuning 이후에 추가 lora finetuning - domain adaptation 가능

SAT = Full Finetuning XLM-Roberta + LoRA Finetuning

3. Experimental Setup

1. Dataset

General Text

UD - 다국어 문장 분리 데이터셋
OPUS100 - 다국어 뉴스, 자막 데이터
Ersats - 뉴스 문장 분리 데이터

Noisy Text

Seep-NLG - TED 강연 ASR
Tweets - 트위터 (세르비아, 슬로베니아)
Code-Switching - Reddit, 번역 데이터

Domain Specific

MultiLegalSBD - 다국어 법률 문서
Verses - 35000곡 가사 데이터

2. Evaluation Metrics

F1-Score

Precision - 예측한 문장 경계 중 실제로 문장 경계인 비율
Recall - 실제 문장 경계를 얼마나 잘 찾아냈는지

Short Sequence Acc

완벽하게 분리되면 100, 하나라도 틀리면 0 부여

3. Baseline

NLTK, SPacy - Rule based
Ersats - 뉴스 데이터 기반 문장 분리 모델
WtP - 웹 데이터 기반 문장 분리 모델
WTPPUNCT - 구두점 확률을 추가 학습한 WtP
SAT - XLM-R을 Full Finetuning
SAT-SM - 문장 분리 데이터셋으로 추가 학습한 SAT
SAT-LoRA - 특정 도메인 적응을 위해 LoRA 학습

LLM

LLaMA3 8B, Cohere Command R

4. Result

General Text Evaluation

기존 모델들보다 SAT들이 더 좋고, 도메인에 강점이 있다
LLM은 zero-shot prompting에서 성능이 박살난다

5. Opinion

결과를 더 읽어줄 수가 없었다. 뭐 자기 방식이 제일 뛰어나다고 주장할텐데... 제대로 평가할 거였으면 LLM에서 prompting을 주었을 때를 평가해야 하지 않나 라는 생각이 든다. 그리고 efficiency 운운하는데 llama 1B 짜리도 사용하지 않고 문장분리는 간단한 task라면서 8B짜리로 평가해높고 efficiency 운운한다. 개인적으로 llm과 비교평가 했다고 하는데 전혀 공정한 평가가 되지 못한다고 생각하며, 솔직히 prompt tuning만으로 제안하는 모델보다 성능이 뛰어날 것으로 생각된다.

강현구

고려대학교 인공지능학과 SLP Lab 석사과정생

이전 포스트

[Paper Review] Reshape Dimensions Network for Speaker Recognition

다음 포스트

[Paper Review] Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation

Paper Review

Segment Any Text (SAT): A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation

1. Introduction

문제 정의

기존 연구 동향

1. Rule-Based Approach

2. Supervised Approach

3. Unsupervised Approach

최신 연구 동향

WtP

LLM

기존 연구의 한계

SAT 제안

2. Method

Finetuning 방법

3. Experimental Setup

1. Dataset

General Text

Noisy Text

Domain Specific

2. Evaluation Metrics

F1-Score

Short Sequence Acc

3. Baseline

LLM

4. Result

General Text Evaluation

5. Opinion

[Paper Review] Reshape Dimensions Network for Speaker Recognition

[Paper Review] Diffusion-LM Improves Controllable Text Generation

0개의 댓글

[Paper Review] Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation

Paper Review

Segment Any Text (SAT): A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation

1. Introduction

문제 정의

기존 연구 동향

1. Rule-Based Approach

2. Supervised Approach

3. Unsupervised Approach

최신 연구 동향

WtP

LLM

기존 연구의 한계

SAT 제안

2. Method

Finetuning 방법

3. Experimental Setup

1. Dataset

General Text

Noisy Text

Domain Specific

2. Evaluation Metrics

F1-Score

Short Sequence Acc

3. Baseline

Related

LLM

4. Result

General Text Evaluation

5. Opinion

[Paper Review] Reshape Dimensions Network for Speaker Recognition

[Paper Review] Diffusion-LM Improves Controllable Text Generation

0개의 댓글