torchtext.legacy.data에는 필드(Field)라는 도구를 제공한다. 필드란 텐서로 표현 될 수 있는 텍스트 데이터 타입을 처리한다. 필드를 통해 앞으로 어떤 전처리를 할지 정의할 수 있다.
from torchtext.legacy import data
data.Field(sequential=True,
use_vocab=True,
tokenize=str.split,
lower=True,
batch_first=True,
fix_length=20)
sequential
: 순차 데이터 여부. False이면 토큰화가 적용되지 않음. (default: True)
use_vocab
: Vocab 개체 사용 여부. False인 경우 이 필드의 데이터는 이미 숫자여야 함. (default: True)
tokenize
: 사용될 토큰화 함수 (default: string.split)
lower
: 영어 데이터 소문자화 (default: False)
batch_first
: 미니 배치 차원을 맨 앞으로 하여 데이터를 불러올 것인지 여부 (default: False)
is_target
: target variable 여부 (default: False)
fix_length
: 최대 허용 길이. 이 길이에 맞춰 패딩(Padding) 작업 진행