[GPT] 파라메터 알아보기

티나(Tina)·2023년 1월 2일

파이널

목록 보기

7/7

https://huggingface.co/docs/transformers/v4.25.1/en/model_doc/gpt2#transformers.GPT2Model.forward

GPT2Tokenizer

PreTrainedTokenizer

model_max_length ( int, optional ) — 모델에 대한 입력의 최대 길이(토큰 수)입니다. 토크나이저가 from_pretrained() 로 로드 되면 연결된 모델에 대해 저장된 값으로 설정됩니다. 기본값은 VERY_LARGE_INTEGER( int(1e30))입니다.

padding_side ( str, optional ) — 모델에 패딩이 적용되어야 하는 면입니다.[‘right’, ‘left’] 중에서 선택해야 합니다. 기본값은 같은 이름의 클래스 속성에서 선택됩니다.

truncation_side ( str, optional ) — 모델이 잘려야 하는 쪽입니다. [‘right’, ‘left’]. 중에서 선택해야 합니다. 기본값은 같은 이름의 클래스 속성에서 선택됩니다.

bos_token — 문장의 시작을 나타내는 특수 토큰입니다. self.bos_token및 에 연결됩니다 self.bos_token_id.

eos_token — 문장의 끝을 나타내는 특수 토큰입니다. self.eos_token및 에 연결됩니다 self.eos_token_id.

unk_token— 어휘 외 토큰을 나타내는 특수 토큰. self.unk_token및 에 연결됩니다 self.unk_token_id.

sep_token — 동일한 입력에서 두 개의 서로 다른 문장을 구분하는 특수 토큰(예: BERT에서 사용). self.sep_token및 에 연결됩니다 self.sep_token_id.

pad_token — 일괄 처리를 위해 토큰 배열을 동일한 크기로 만드는 데 사용되는 특수 토큰입니다. 주의 메커니즘 또는 손실 계산에 의해 무시됩니다. self.pad_token및 에 연결됩니다 self.pad_token_id.

cls_token — 입력 클래스를 나타내는 특수 토큰(예를 들어 BERT에서 사용). self.cls_token및 에 연결됩니다 self.cls_token_id.

mask_token — 마스킹된 토큰을 나타내는 특수 토큰(BERT와 같은 마스킹된 언어 모델링 사전 학습 목표에서 사용됨). self.mask_token및 에 연결됩니다 self.mask_token_id.

This tokenizer has been trained to treat spaces like parts of the tokens.
So a word will be encoded differently whether it is at the beginning of the sentence (without space) or not.

GPT2TokenizerFast

vocab_file ( str) — 어휘 파일의 경로.
merges_file ( str) — 병합 파일의 경로입니다.
errors — 바이트를 UTF-8로 디코딩할 때 따라야 할 패러다임입니다.
unk_token — 알 수 없는 토큰. 어휘에 없는 토큰은 ID로 변환할 수 없으며 대신 이 토큰으로 설정됩니다.
bos_token — 시퀀스 토큰의 시작.
eos_token — 시퀀스 토큰의 끝.
add_prefix_space - defaults to False. 입력에 초기 공백을 추가할지 여부. 이렇게 하면 선행 단어를 다른 단어처럼 취급할 수 있습니다. (GPT2 토크나이저는 선행 공백으로 단어의 시작을 감지합니다).
trim_offsets - defaults to True. 사후 처리 단계에서 공백을 포함하지 않도록 오프셋을 잘라야 하는지 여부.

This tokenizer has been trained to treat spaces like parts of the tokens.

Tokenizer call Parameters

text (str, List[str], List[List[str]], optional) — 인코딩할 시퀀스 또는 시퀀스의 배치입니다. 각 시퀀스는 문자열 또는 문자열 리스트다.

text_pair (str, List[str], List[List[str]], optional) — 인코딩할 시퀀스 또는 시퀀스 배치.

text_target (str, List[str], List[List[str]], optional) — 대상 텍스트로 인코딩할 시퀀스 또는 시퀀스 배치입니다. 각 시퀀스는 문자열 또는 문자열 리스트일 수 있습니다.

text_pair_target (str, List[str], List[List[str]], optional) — 대상 텍스트로 인코딩할 시퀀스 또는 시퀀스 배치입니다.

add_special_tokens (bool, optional , defaults to True) — 모델에 상대적인 특수 토큰으로 시퀀스를 인코딩할지 여부.

padding (기본값은 False) — 패딩을 활성화하고 제어합니다. 다음 값을 허용합니다.

True또는 'longest': 배치에서 가장 긴 시퀀스로 패딩합니다(또는 제공된 경우 단일 시퀀스만 있는 경우 패딩 없음).

'max_length': 인수로 지정된 최대 길이 max_length또는 해당 인수가 제공되지 않은 경우 모델에 허용되는 최대 입력 길이로 채웁니다.

False또는 'do_not_pad'(기본값): 패딩 없음(즉, 길이가 다른 시퀀스로 배치를 출력할 수 있음).

truncation (기본값은 False) — 자르기 를 활성화하고 제어합니다. 다음 값을 허용합니다.

True또는 'longest_first': 인수로 지정된 최대 길이 max_length또는 해당 인수가 제공되지 않은 경우 모델에 허용되는 최대 입력 길이로 자릅니다.

'only_first': 인수로 지정된 최대 길이 max_length또는 해당 인수가 제공되지 않은 경우 모델에 허용되는 최대 입력 길이로 자릅니다.

'only_second': 인수로 지정된 최대 길이 max_length또는 해당 인수가 제공되지 않은 경우 모델에 허용되는 최대 입력 길이로 자릅니다.

False또는 'do_not_truncate'(기본값): 잘림 없음(즉, 모델 최대 허용 입력 크기보다 큰 시퀀스 길이의 배치를 출력할 수 있음).

max_length ( int, optional ) — truncation/padding 매개변수 중 하나에서 사용할 최대 길이를 제어합니다.
설정하지 않거나 로 설정 None하면 자르기/패딩 매개변수 중 하나에 최대 길이가 필요한 경우 사전 정의된 모델 최대 길이를 사용합니다. 모델에 특정 최대 입력 길이(예: XLNet)가 없는 경우 최대 길이에 대한 자르기/패딩이 비활성화됩니다.

stride ( int, optional , defaults to 0) - max_length할 때 반환되는 오버플로 토큰 입니다.

is_split_into_words ( bool, optional , defaults to False) — 입력이 이미 사전 토큰화되었는지 여부(예: 단어로 분할). 로 설정 True하면 토크나이저는 입력이 이미 토큰화할 단어로 분할되었다고 가정합니다(예: 공백으로 분할). 이는 NER 또는 토큰 분류에 유용합니다.

pad_to_multiple_of ( int, optional ) — 설정하면 제공된 값의 배수로 시퀀스를 채웁니다. 이는 컴퓨팅 기능이 7.5(Volta) 이상인 NVIDIA 하드웨어에서 Tensor 코어를 사용할 수 있도록 하는 데 특히 유용합니다.

return_tensors ( str또는 TensorType , optional ) — 설정하면 파이썬 정수 목록 대신 텐서를 반환합니다. 허용되는 값은 다음과 같습니다.

'tf': TensorFlow tf.constant객체를 반환합니다.

'pt': PyTorch torch.Tensor객체를 반환합니다.

'np': Numpy np.ndarray객체를 반환합니다.

return_token_type_ids ( bool, optional ) — 토큰 유형 ID를 반환할지 여부.

return_attention_mask ( bool, optional ) — 어텐션 마스크 반환 여부.

return_overflowing_tokens ( bool, optional , defaults to False) — 오버플로 토큰 시퀀스를 반환할지 여부.

return_special_tokens_mask ( bool, optional , defaults to False) — 특수 토큰 마스크 정보를 반환할지 여부.

return_offsets_mapping ( bool, optional , defaults to False) — 각 토큰에 대해 False반환할지 여부 .(char_start, char_end)

return_length ( bool, optional , defaults to False) — 인코딩된 입력의 길이를 반환할지 여부.

verbose ( bool, optional , defaults to True) — 추가 정보 및 경고를 인쇄할지 여부. **kwargs — self.tokenize()메서드 에 전달됨

tokenizer.decode

token_ids ( Union[int, List[int], np.ndarray, torch.Tensor, tf.Tensor]) — 토큰화된 입력 ID 목록. 방법을 사용하여 얻을 수 있습니다.

skip_special_tokens ( bool, optional , defaults to False) — 디코딩에서 특수 토큰을 제거할지 여부.

clean_up_tokenization_spaces ( bool, optional , defaults to True) — 토큰화 공간을 정리할지 여부.

kwargs (추가 키워드 인수, 선택 사항 ) — 기본 모델별 디코딩 방법으로 전달됩니다.

tokenizer.encode

text ( str, List[str]또는 List[int]) — 인코딩할 첫 번째 시퀀스입니다. 이는 문자열, 문자열 리스트 또는 정수 리스트 일 수 있습니다.

text_pair ( str, List[str]or List[int], optional ) — 인코딩할 선택적 두 번째 시퀀스입니다. 이는 문자열, 문자열 리스트 또는 정수 리스트 일 수 있습니다.

add_special_tokens ( bool, optional , defaults to True) — 모델에 상대적인 특수 토큰으로 시퀀스를 인코딩할지 여부.

padding (기본값은 False) — 패딩을 활성화하고 제어합니다. 다음 값을 허용합니다.

True또는 'longest': 배치에서 가장 긴 시퀀스로 패딩합니다.

'max_length': 인수로 지정된 최대 길이 max_length또는 해당 인수가 제공되지 않은 경우 모델에 허용되는 최대 입력 길이로 채웁니다.

False또는 'do_not_pad'(기본값): 패딩 없음(즉, 길이가 다른 시퀀스로 배치를 출력할 수 있음).

truncation (기본값은 False) — 자르기 를 활성화하고 제어합니다. 다음 값을 허용합니다.

True또는 'longest_first': 인수로 지정된 최대 길이 max_length또는 해당 인수가 제공되지 않은 경우 모델에 허용되는 최대 입력 길이로 자릅니다. 이렇게 하면 토큰별로 토큰이 잘려서 시퀀스 쌍(또는 쌍 배치)이 제공되는 경우 쌍에서 가장 긴 시퀀스에서 토큰을 제거합니다.

'only_first': 인수로 지정된 최대 길이 max_length또는 해당 인수가 제공되지 않은 경우 모델에 허용되는 최대 입력 길이로 자릅니다. 시퀀스 쌍(또는 쌍의 배치)이 제공되는 경우 쌍의 첫 번째 시퀀스만 자릅니다.

'only_second': 인수로 지정된 최대 길이 max_length또는 해당 인수가 제공되지 않은 경우 모델에 허용되는 최대 입력 길이로 자릅니다. 시퀀스 쌍(또는 쌍 배치)이 제공되는 경우 쌍의 두 번째 시퀀스만 자릅니다.

False또는 'do_not_truncate'(기본값): 잘림 없음(즉, 모델 최대 허용 입력 크기보다 큰 시퀀스 길이의 배치를 출력할 수 있음).

max_length ( int, optional ) — truncation/padding 매개변수 중 하나에서 사용할 최대 길이를 제어합니다.
설정하지 않거나 로 설정 None하면 자르기/패딩 매개변수 중 하나에 최대 길이가 필요한 경우 사전 정의된 모델 최대 길이를 사용합니다. 모델에 특정 최대 입력 길이(예: XLNet)가 없는 경우 최대 길이에 대한 자르기/패딩이 비활성화됩니다.

stride ( int, optional , defaults to 0) — max_length할 때 반환되는 오버플로 토큰 입니다.

is_split_into_words ( bool, optional , defaults to False) — 입력이 이미 사전 토큰화되었는지 여부

pad_to_multiple_of ( int, optional ) — 설정하면 제공된 값의 배수로 시퀀스를 채웁니다.

return_tensors ( str또는 TensorType , optional ) — 설정하면 파이썬 정수 목록 대신 텐서를 반환합니다. 허용되는 값은 다음과 같습니다.

'tf': TensorFlow tf.constant객체를 반환합니다.

'pt': PyTorch torch.Tensor객체를 반환합니다.

'np': Numpy np.ndarray객체를 반환합니다.

TFGPT2LMHeadModel

config - 모델의 모든 매개변수가 포함된 모델 구성 클래스입니다. 구성 파일로 초기화하면 모델과 관련된 가중치는 로드되지 않고 구성만 로드된다.

The GPT2 Model transformer with a language modeling head on top

generationConfig

출력 길이를 제어하는 매개변수

max_length ( int, optional , 기본값은 20) — 생성된 토큰이 가질 수 있는 최대 길이입니다. 입력 프롬프트 + 의 길이에 해당합니다 max_new_tokens. 일반적으로 max_new_tokens프롬프트의 토큰 수를 무시하는 를 사용하는 것이 좋습니다.
max_new_tokens ( int, optional ) — 프롬프트의 토큰 수를 무시하고 생성할 최대 토큰 수입니다.
min_length ( int, optional , 기본값은 0) — 생성할 시퀀스의 최소 길이.
early_stopping ( bool, optional , defaults to False) — 배치당 적어도 num_beams문장이 완료될 때 빔 검색을 중지할지 여부.
max_time( float, optional ) — 계산을 실행할 수 있는 최대 시간(초)입니다. 세대는 할당된 시간이 지난 후에도 여전히 현재 통과를 완료합니다.
사용된 생성 전략을 제어하는 매개변수

do_sample ( bool, 선택 사항 , 기본값은 False) — 샘플링 사용 여부. 그렇지 않으면 탐욕스러운 디코딩을 사용하십시오.
num_beams ( int, 선택 사항 , 기본값은 1) - 빔 검색을 위한 빔 수입니다. 1은 빔 탐색이 없음을 의미합니다.
num_beam_groups ( int, 선택 사항 , 기본값은 1) — num_beams서로 다른 빔 그룹 간에 다양성을 보장하기 위해 나눌 그룹 수입니다. 자세한 내용은 이 문서 를 참조하십시오.
penalty_alpha ( float, optional ) — 이 값은 대조 검색 디코딩에서 모델 신뢰도와 퇴화 패널티의 균형을 맞춥니다.
모델 출력 로짓 조작을 위한 매개변수

온도 ( float, 선택 사항 , 기본값은 1.0) — 다음 토큰 확률을 모듈화하는 데 사용되는 값입니다.
top_k ( int, optional , defaults to 50) — top-k-filtering을 위해 유지할 최고 확률 어휘 토큰의 수.
top_p ( float, optional , defaults to 1.0) — float < 1로 설정하면 확률이 최대 top_p또는 그 이상인 가장 작은 토큰 세트만 생성을 위해 유지됩니다.
Typical_p ( float, optional , defaults to 1.0) — 일반적인 디코딩에서 고려할 원래 분포의 확률 질량의 양입니다. 1.0으로 설정하면 아무런 효과가 없습니다. 자세한 내용은 이 문서 를 참조하십시오.
Diversity_penalty ( float, optional , defaults to 0.0) — 이 값은 특정 시간에 다른 그룹의 빔과 동일한 토큰을 생성하는 경우 빔의 점수에서 뺍니다. 가 활성화된 diversity_penalty경우에만 유효합니다 .group beam search
repeating_penalty ( float, optional , defaults to 1.0) — 반복 패널티에 대한 매개변수. 1.0은 패널티가 없음을 의미합니다. 자세한 내용은 이 문서 를 참조하십시오.
length_penalty ( float, optional , defaults to 1.0) — 빔 기반 생성에 사용되는 길이에 대한 지수 패널티. 시퀀스 길이에 대한 지수로 적용되며 시퀀스의 점수를 나누는 데 사용됩니다. 점수는 시퀀스의 로그 가능성(즉, 음수)이므로 length_penalty> 0.0은 더 긴 시퀀스를 촉진하고 length_penalty< 0.0은 더 짧은 시퀀스를 권장합니다.
no_repeat_ngram_size ( int, optional , defaults to 0) — int > 0으로 설정하면 해당 크기의 모든 ngram은 한 번만 발생할 수 있습니다.
bad_words_ids( List[List[int]], optional ) — 생성이 허용되지 않는 토큰 ID 목록. 생성된 텍스트에 나타나지 않아야 하는 단어의 토큰 ID를 얻으려면 를 사용 tokenizer(bad_words, add_prefix_space=True, add_special_tokens=False).input_ids하십시오.
force_words_ids(List[List[int]] 또는 List[List[List[int]]], optional ) — 생성해야 하는 토큰 ID 목록입니다. 가 주어지면 List[List[int]]이것은 포함되어야 하는 간단한 단어 목록으로 처리되며 의 반대 bad_words_ids입니다. 주어진 경우 , 이는 각 단어의 다른 형식을 허용할 수 있는 이접 제약 조건List[List[List[int]]] 을 트리거합니다 .
use_cache ( bool, optional , defaults to True) — 모델이 디코딩 속도를 높이기 위해 지난 마지막 키/값 주의(모델에 적용 가능한 경우)를 사용해야 하는지 여부입니다.
renormalize_logits ( bool, optional , defaults to False) — 모든 로짓 프로세서 또는 워퍼(사용자 정의 프로세서 포함)를 적용한 후 로짓을 다시 정규화할지 여부입니다. True검색 알고리즘이 점수 로짓이 정규화되었다고 가정하지만 일부 로짓 프로세서 또는 워퍼가 정규화를 중단한다고 가정하므로 이 플래그를 로 설정하는 것이 좋습니다 .
forced_bos_token_id ( int, 선택 사항 , 기본값은 model.config.forced_bos_token_id) — decoder_start_token_id. 처음 생성된 토큰이 대상 언어 토큰이어야 하는 mBART 와 같은 다국어 모델에 유용합니다 .
Forced_eos_token_id ( int, optional , defaults to ) — 도달 model.config.forced_eos_token_id했을 때 마지막으로 생성된 토큰으로 강제할 토큰의 ID입니다 .max_length
remove_invalid_values ( bool, optional , defaults to ) — 생성 방법 충돌을 방지하기 위해 모델의 가능한 nan 및 infmodel.config.remove_invalid_values 출력 을 제거할지 여부 입니다. 사용 하면 생성 속도가 느려질 수 있습니다.remove_invalid_values
exponential_decay_length_penalty ( tuple(int, float), optional ) — 이 튜플은 일정량의 토큰이 생성된 후 기하급수적으로 증가하는 길이 페널티를 추가합니다. 튜플은 다음으로 구성됩니다. 여기 에서 페널티가 시작되는 (start_index, decay_factor)위치 를 나타내고 지수 감쇠 계수를 나타냅니다.start_indexdecay_factor
suppress_tokens ( List[int], optional ) — 생성 시 억제될 토큰 목록입니다. SupressTokens로짓 프로세서는 샘플링되지 않도록 로그 프로브를 로 설정 합니다 -inf.
begin_suppress_tokens ( List[int], optional ) — 생성 시작 시 억제될 토큰 목록입니다. SupressBeginTokens로짓 프로세서는 샘플링되지 않도록 로그 프로브를 로 설정 합니다 -inf.
forced_decoder_ids ( List[List[int]], optional ) — 생성 인덱스에서 샘플링 전에 강제될 토큰 인덱스로의 매핑을 나타내는 정수 쌍 목록입니다. 예를 들어 [[1, 123]]두 번째로 생성된 토큰은 항상 인덱스 123의 토큰임을 의미합니다.
generate의 출력 변수를 정의하는 매개변수

num_return_sequences( int, optional , defaults to 1) — 배치의 각 요소에 대해 독립적으로 계산된 반환 시퀀스의 수입니다.
output_attentions ( bool, optional , defaults to False) — 모든 어텐션 레이어의 어텐션 텐서를 반환할지 여부. 자세한 내용은 attentions언더 리턴된 텐서를 참조하십시오.
output_hidden_states ( bool, optional , defaults to False) — 모든 레이어의 숨겨진 상태를 반환할지 여부. 자세한 내용은 hidden_states언더 리턴된 텐서를 참조하십시오.
output_scores ( bool, optional , defaults to False) — 예측 점수를 반환할지 여부. 자세한 내용은 scores언더 리턴된 텐서를 참조하십시오.
return_dict_in_generate ( bool, optional , defaults to ) — 일반 튜플 대신 ModelOutputFalse 을 반환할지 여부 .

티나(Tina)

열심히 사는 중

이전 포스트

[GPT] 파라메터 알아보기

파이널

GPT2Tokenizer

GPT2TokenizerFast

Tokenizer call Parameters

tokenizer.decode

tokenizer.encode

TFGPT2LMHeadModel

generationConfig

출력 길이를 제어하는 매개변수

[BART] 모델 사용해보자!!! vs GPT

0개의 댓글

[GPT] 파라메터 알아보기

파이널

GPT2Tokenizer

GPT2TokenizerFast

Tokenizer call Parameters

tokenizer.decode

tokenizer.encode

TFGPT2LMHeadModel

generationConfig

출력 길이를 제어하는 ​​매개변수

[BART] 모델 사용해보자!!! vs GPT

0개의 댓글

출력 길이를 제어하는 매개변수