[GPT] 파라메터 알아보기

티나(Tina)·2023년 1월 2일
0

파이널

목록 보기
7/7

https://huggingface.co/docs/transformers/v4.25.1/en/model_doc/gpt2#transformers.GPT2Model.forward

GPT2Tokenizer

PreTrainedTokenizer

  • model_max_length ( int, optional ) — 모델에 대한 입력의 최대 길이(토큰 수)입니다. 토크나이저가 from_pretrained() 로 로드 되면 연결된 모델에 대해 저장된 값으로 설정됩니다. 기본값은 VERY_LARGE_INTEGER( int(1e30))입니다.
  • padding_side ( str, optional ) — 모델에 패딩이 적용되어야 하는 면입니다.[‘right’, ‘left’] 중에서 선택해야 합니다. 기본값은 같은 이름의 클래스 속성에서 선택됩니다.
  • truncation_side ( str, optional ) — 모델이 잘려야 하는 쪽입니다. [‘right’, ‘left’]. 중에서 선택해야 합니다. 기본값은 같은 이름의 클래스 속성에서 선택됩니다.
  • bos_token — 문장의 시작을 나타내는 특수 토큰입니다. self.bos_token및 에 연결됩니다 self.bos_token_id.
  • eos_token — 문장의 끝을 나타내는 특수 토큰입니다. self.eos_token및 에 연결됩니다 self.eos_token_id.
  • unk_token— 어휘 외 토큰을 나타내는 특수 토큰. self.unk_token및 에 연결됩니다 self.unk_token_id.
  • sep_token — 동일한 입력에서 두 개의 서로 다른 문장을 구분하는 특수 토큰(예: BERT에서 사용). self.sep_token및 에 연결됩니다 self.sep_token_id.
  • pad_token — 일괄 처리를 위해 토큰 배열을 동일한 크기로 만드는 데 사용되는 특수 토큰입니다. 주의 메커니즘 또는 손실 계산에 의해 무시됩니다. self.pad_token및 에 연결됩니다 self.pad_token_id.
  • cls_token — 입력 클래스를 나타내는 특수 토큰(예를 들어 BERT에서 사용). self.cls_token및 에 연결됩니다 self.cls_token_id.
  • mask_token — 마스킹된 토큰을 나타내는 특수 토큰(BERT와 같은 마스킹된 언어 모델링 사전 학습 목표에서 사용됨). self.mask_token및 에 연결됩니다 self.mask_token_id.

This tokenizer has been trained to treat spaces like parts of the tokens.
So a word will be encoded differently whether it is at the beginning of the sentence (without space) or not.

GPT2TokenizerFast

vocab_file ( str) — 어휘 파일의 경로.
merges_file ( str) — 병합 파일의 경로입니다.
errors — 바이트를 UTF-8로 디코딩할 때 따라야 할 패러다임입니다.
unk_token — 알 수 없는 토큰. 어휘에 없는 토큰은 ID로 변환할 수 없으며 대신 이 토큰으로 설정됩니다.
bos_token — 시퀀스 토큰의 시작.
eos_token — 시퀀스 토큰의 끝.
add_prefix_space - defaults to False. 입력에 초기 공백을 추가할지 여부. 이렇게 하면 선행 단어를 다른 단어처럼 취급할 수 있습니다. (GPT2 토크나이저는 선행 공백으로 단어의 시작을 감지합니다).
trim_offsets - defaults to True. 사후 처리 단계에서 공백을 포함하지 않도록 오프셋을 잘라야 하는지 여부.

This tokenizer has been trained to treat spaces like parts of the tokens.

Tokenizer call Parameters

  • text (str, List[str], List[List[str]], optional) — 인코딩할 시퀀스 또는 시퀀스의 배치입니다. 각 시퀀스는 문자열 또는 문자열 리스트다.
  • text_pair (str, List[str], List[List[str]], optional) — 인코딩할 시퀀스 또는 시퀀스 배치.
  • text_target (str, List[str], List[List[str]], optional) — 대상 텍스트로 인코딩할 시퀀스 또는 시퀀스 배치입니다. 각 시퀀스는 문자열 또는 문자열 리스트일 수 있습니다.
  • text_pair_target (str, List[str], List[List[str]], optional) — 대상 텍스트로 인코딩할 시퀀스 또는 시퀀스 배치입니다.
  • add_special_tokens (bool, optional , defaults to True) — 모델에 상대적인 특수 토큰으로 시퀀스를 인코딩할지 여부.
  • padding (기본값은 False) — 패딩을 활성화하고 제어합니다. 다음 값을 허용합니다.
    • True또는 'longest': 배치에서 가장 긴 시퀀스로 패딩합니다(또는 제공된 경우 단일 시퀀스만 있는 경우 패딩 없음).
    • 'max_length': 인수로 지정된 최대 길이 max_length또는 해당 인수가 제공되지 않은 경우 모델에 허용되는 최대 입력 길이로 채웁니다.
    • False또는 'do_not_pad'(기본값): 패딩 없음(즉, 길이가 다른 시퀀스로 배치를 출력할 수 있음).
  • truncation (기본값은 False) — 자르기 를 활성화하고 제어합니다. 다음 값을 허용합니다.
    • True또는 'longest_first': 인수로 지정된 최대 길이 max_length또는 해당 인수가 제공되지 않은 경우 모델에 허용되는 최대 입력 길이로 자릅니다.
    • 'only_first': 인수로 지정된 최대 길이 max_length또는 해당 인수가 제공되지 않은 경우 모델에 허용되는 최대 입력 길이로 자릅니다.
    • 'only_second': 인수로 지정된 최대 길이 max_length또는 해당 인수가 제공되지 않은 경우 모델에 허용되는 최대 입력 길이로 자릅니다.
    • False또는 'do_not_truncate'(기본값): 잘림 없음(즉, 모델 최대 허용 입력 크기보다 큰 시퀀스 길이의 배치를 출력할 수 있음).
  • max_length ( int, optional ) — truncation/padding 매개변수 중 하나에서 사용할 최대 길이를 제어합니다.
    설정하지 않거나 로 설정 None하면 자르기/패딩 매개변수 중 하나에 최대 길이가 필요한 경우 사전 정의된 모델 최대 길이를 사용합니다. 모델에 특정 최대 입력 길이(예: XLNet)가 없는 경우 최대 길이에 대한 자르기/패딩이 비활성화됩니다.
  • stride ( int, optional , defaults to 0) - max_length할 때 반환되는 오버플로 토큰 입니다.
  • is_split_into_words ( bool, optional , defaults to False) — 입력이 이미 사전 토큰화되었는지 여부(예: 단어로 분할). 로 설정 True하면 토크나이저는 입력이 이미 토큰화할 단어로 분할되었다고 가정합니다(예: 공백으로 분할). 이는 NER 또는 토큰 분류에 유용합니다.
  • pad_to_multiple_of ( int, optional ) — 설정하면 제공된 값의 배수로 시퀀스를 채웁니다. 이는 컴퓨팅 기능이 7.5(Volta) 이상인 NVIDIA 하드웨어에서 Tensor 코어를 사용할 수 있도록 하는 데 특히 유용합니다.
  • return_tensors ( str또는 TensorType , optional ) — 설정하면 파이썬 정수 목록 대신 텐서를 반환합니다. 허용되는 값은 다음과 같습니다.
    • 'tf': TensorFlow tf.constant객체를 반환합니다.
    • 'pt': PyTorch torch.Tensor객체를 반환합니다.
    • 'np': Numpy np.ndarray객체를 반환합니다.
  • return_token_type_ids ( bool, optional ) — 토큰 유형 ID를 반환할지 여부.
  • return_attention_mask ( bool, optional ) — 어텐션 마스크 반환 여부.
  • return_overflowing_tokens ( bool, optional , defaults to False) — 오버플로 토큰 시퀀스를 반환할지 여부.
  • return_special_tokens_mask ( bool, optional , defaults to False) — 특수 토큰 마스크 정보를 반환할지 여부.
  • return_offsets_mapping ( bool, optional , defaults to False) — 각 토큰에 대해 False반환할지 여부 .(char_start, char_end)
  • return_length ( bool, optional , defaults to False) — 인코딩된 입력의 길이를 반환할지 여부.
  • verbose ( bool, optional , defaults to True) — 추가 정보 및 경고를 인쇄할지 여부. **kwargs — self.tokenize()메서드 에 전달됨

tokenizer.decode

  • token_ids ( Union[int, List[int], np.ndarray, torch.Tensor, tf.Tensor]) — 토큰화된 입력 ID 목록. 방법을 사용하여 얻을 수 있습니다.
  • skip_special_tokens ( bool, optional , defaults to False) — 디코딩에서 특수 토큰을 제거할지 여부.
  • clean_up_tokenization_spaces ( bool, optional , defaults to True) — 토큰화 공간을 정리할지 여부.
  • kwargs (추가 키워드 인수, 선택 사항 ) — 기본 모델별 디코딩 방법으로 전달됩니다.

tokenizer.encode

  • text ( str, List[str]또는 List[int]) — 인코딩할 첫 번째 시퀀스입니다. 이는 문자열, 문자열 리스트 또는 정수 리스트 일 수 있습니다.
  • text_pair ( str, List[str]or List[int], optional ) — 인코딩할 선택적 두 번째 시퀀스입니다. 이는 문자열, 문자열 리스트 또는 정수 리스트 일 수 있습니다.
  • add_special_tokens ( bool, optional , defaults to True) — 모델에 상대적인 특수 토큰으로 시퀀스를 인코딩할지 여부.
  • padding (기본값은 False) — 패딩을 활성화하고 제어합니다. 다음 값을 허용합니다.
    • True또는 'longest': 배치에서 가장 긴 시퀀스로 패딩합니다.
    • 'max_length': 인수로 지정된 최대 길이 max_length또는 해당 인수가 제공되지 않은 경우 모델에 허용되는 최대 입력 길이로 채웁니다.
    • False또는 'do_not_pad'(기본값): 패딩 없음(즉, 길이가 다른 시퀀스로 배치를 출력할 수 있음).
  • truncation (기본값은 False) — 자르기 를 활성화하고 제어합니다. 다음 값을 허용합니다.
    • True또는 'longest_first': 인수로 지정된 최대 길이 max_length또는 해당 인수가 제공되지 않은 경우 모델에 허용되는 최대 입력 길이로 자릅니다. 이렇게 하면 토큰별로 토큰이 잘려서 시퀀스 쌍(또는 쌍 배치)이 제공되는 경우 쌍에서 가장 긴 시퀀스에서 토큰을 제거합니다.
    • 'only_first': 인수로 지정된 최대 길이 max_length또는 해당 인수가 제공되지 않은 경우 모델에 허용되는 최대 입력 길이로 자릅니다. 시퀀스 쌍(또는 쌍의 배치)이 제공되는 경우 쌍의 첫 번째 시퀀스만 자릅니다.
    • 'only_second': 인수로 지정된 최대 길이 max_length또는 해당 인수가 제공되지 않은 경우 모델에 허용되는 최대 입력 길이로 자릅니다. 시퀀스 쌍(또는 쌍 배치)이 제공되는 경우 쌍의 두 번째 시퀀스만 자릅니다.
    • False또는 'do_not_truncate'(기본값): 잘림 없음(즉, 모델 최대 허용 입력 크기보다 큰 시퀀스 길이의 배치를 출력할 수 있음).
  • max_length ( int, optional ) — truncation/padding 매개변수 중 하나에서 사용할 최대 길이를 제어합니다.
    설정하지 않거나 로 설정 None하면 자르기/패딩 매개변수 중 하나에 최대 길이가 필요한 경우 사전 정의된 모델 최대 길이를 사용합니다. 모델에 특정 최대 입력 길이(예: XLNet)가 없는 경우 최대 길이에 대한 자르기/패딩이 비활성화됩니다.
  • stride ( int, optional , defaults to 0) — max_length할 때 반환되는 오버플로 토큰 입니다.
  • is_split_into_words ( bool, optional , defaults to False) — 입력이 이미 사전 토큰화되었는지 여부
  • pad_to_multiple_of ( int, optional ) — 설정하면 제공된 값의 배수로 시퀀스를 채웁니다.
  • return_tensors ( str또는 TensorType , optional ) — 설정하면 파이썬 정수 목록 대신 텐서를 반환합니다. 허용되는 값은 다음과 같습니다.
    • 'tf': TensorFlow tf.constant객체를 반환합니다.
    • 'pt': PyTorch torch.Tensor객체를 반환합니다.
    • 'np': Numpy np.ndarray객체를 반환합니다.

TFGPT2LMHeadModel

  • config - 모델의 모든 매개변수가 포함된 모델 구성 클래스입니다. 구성 파일로 초기화하면 모델과 관련된 가중치는 로드되지 않고 구성만 로드된다.
  • The GPT2 Model transformer with a language modeling head on top

generationConfig

출력 길이를 제어하는 ​​매개변수

  • max_length ( int, optional , 기본값은 20) — 생성된 토큰이 가질 수 있는 최대 길이입니다. 입력 프롬프트 + 의 길이에 해당합니다 max_new_tokens. 일반적으로 max_new_tokens프롬프트의 토큰 수를 무시하는 를 사용하는 것이 좋습니다.
    max_new_tokens ( int, optional ) — 프롬프트의 토큰 수를 무시하고 생성할 최대 토큰 수입니다.
    min_length ( int, optional , 기본값은 0) — 생성할 시퀀스의 최소 길이.
    early_stopping ( bool, optional , defaults to False) — 배치당 적어도 num_beams문장이 완료될 때 빔 검색을 중지할지 여부.
    max_time( float, optional ) — 계산을 실행할 수 있는 최대 시간(초)입니다. 세대는 할당된 시간이 지난 후에도 여전히 현재 통과를 완료합니다.
    사용된 생성 전략을 제어하는 ​​매개변수

do_sample ( bool, 선택 사항 , 기본값은 False) — 샘플링 사용 여부. 그렇지 않으면 탐욕스러운 디코딩을 사용하십시오.
num_beams ( int, 선택 사항 , 기본값은 1) - 빔 검색을 위한 빔 수입니다. 1은 빔 탐색이 없음을 의미합니다.
num_beam_groups ( int, 선택 사항 , 기본값은 1) — num_beams서로 다른 빔 그룹 간에 다양성을 보장하기 위해 나눌 그룹 수입니다. 자세한 내용은 이 문서 를 참조하십시오.
penalty_alpha ( float, optional ) — 이 값은 대조 검색 디코딩에서 모델 신뢰도와 퇴화 패널티의 균형을 맞춥니다.
모델 출력 로짓 조작을 위한 매개변수

온도 ( float, 선택 사항 , 기본값은 1.0) — 다음 토큰 확률을 모듈화하는 데 사용되는 값입니다.
top_k ( int, optional , defaults to 50) — top-k-filtering을 위해 유지할 최고 확률 어휘 토큰의 수.
top_p ( float, optional , defaults to 1.0) — float < 1로 설정하면 확률이 최대 top_p또는 그 이상인 가장 작은 토큰 세트만 생성을 위해 유지됩니다.
Typical_p ( float, optional , defaults to 1.0) — 일반적인 디코딩에서 고려할 원래 분포의 확률 질량의 양입니다. 1.0으로 설정하면 아무런 효과가 없습니다. 자세한 내용은 이 문서 를 참조하십시오.
Diversity_penalty ( float, optional , defaults to 0.0) — 이 값은 특정 시간에 다른 그룹의 빔과 동일한 토큰을 생성하는 경우 빔의 점수에서 뺍니다. 가 활성화된 diversity_penalty경우에만 유효합니다 .group beam search
repeating_penalty ( float, optional , defaults to 1.0) — 반복 패널티에 대한 매개변수. 1.0은 패널티가 없음을 의미합니다. 자세한 내용은 이 문서 를 참조하십시오.
length_penalty ( float, optional , defaults to 1.0) — 빔 기반 생성에 사용되는 길이에 대한 지수 패널티. 시퀀스 길이에 대한 지수로 적용되며 시퀀스의 점수를 나누는 데 사용됩니다. 점수는 시퀀스의 로그 가능성(즉, 음수)이므로 length_penalty> 0.0은 더 긴 시퀀스를 촉진하고 length_penalty< 0.0은 더 짧은 시퀀스를 권장합니다.
no_repeat_ngram_size ( int, optional , defaults to 0) — int > 0으로 설정하면 해당 크기의 모든 ngram은 한 번만 발생할 수 있습니다.
bad_words_ids( List[List[int]], optional ) — 생성이 허용되지 않는 토큰 ID 목록. 생성된 텍스트에 나타나지 않아야 하는 단어의 토큰 ID를 얻으려면 를 사용 tokenizer(bad_words, add_prefix_space=True, add_special_tokens=False).input_ids하십시오.
force_words_ids(List[List[int]] 또는 List[List[List[int]]], optional ) — 생성해야 하는 토큰 ID 목록입니다. 가 주어지면 List[List[int]]이것은 포함되어야 하는 간단한 단어 목록으로 처리되며 의 반대 bad_words_ids입니다. 주어진 경우 , 이는 각 단어의 다른 형식을 허용할 수 있는 이접 제약 조건List[List[List[int]]] 을 트리거합니다 .
use_cache ( bool, optional , defaults to True) — 모델이 디코딩 속도를 높이기 위해 지난 마지막 키/값 주의(모델에 적용 가능한 경우)를 사용해야 하는지 여부입니다.
renormalize_logits ( bool, optional , defaults to False) — 모든 로짓 프로세서 또는 워퍼(사용자 정의 프로세서 포함)를 적용한 후 로짓을 다시 정규화할지 여부입니다. True검색 알고리즘이 점수 로짓이 정규화되었다고 가정하지만 일부 로짓 프로세서 또는 워퍼가 정규화를 중단한다고 가정하므로 이 플래그를 로 설정하는 것이 좋습니다 .
forced_bos_token_id ( int, 선택 사항 , 기본값은 model.config.forced_bos_token_id) — decoder_start_token_id. 처음 생성된 토큰이 대상 언어 토큰이어야 하는 mBART 와 같은 다국어 모델에 유용합니다 .
Forced_eos_token_id ( int, optional , defaults to ) — 도달 model.config.forced_eos_token_id했을 때 마지막으로 생성된 토큰으로 강제할 토큰의 ID입니다 .max_length
remove_invalid_values ​​( bool, optional , defaults to ) — 생성 방법 충돌을 방지하기 위해 모델의 가능한 nan 및 infmodel.config.remove_invalid_values 출력 을 제거할지 여부 입니다. 사용 하면 생성 속도가 느려질 수 있습니다.remove_invalid_values
exponential_decay_length_penalty ( tuple(int, float), optional ) — 이 튜플은 일정량의 토큰이 생성된 후 기하급수적으로 증가하는 길이 페널티를 추가합니다. 튜플은 다음으로 구성됩니다. 여기 에서 페널티가 시작되는 (start_index, decay_factor)위치 를 나타내고 지수 감쇠 계수를 나타냅니다.start_indexdecay_factor
suppress_tokens ( List[int], optional ) — 생성 시 억제될 토큰 목록입니다. SupressTokens로짓 프로세서는 샘플링되지 않도록 로그 프로브를 로 설정 합니다 -inf.
begin_suppress_tokens ( List[int], optional ) — 생성 시작 시 억제될 토큰 목록입니다. SupressBeginTokens로짓 프로세서는 샘플링되지 않도록 로그 프로브를 로 설정 합니다 -inf.
forced_decoder_ids ( List[List[int]], optional ) — 생성 인덱스에서 샘플링 전에 강제될 토큰 인덱스로의 매핑을 나타내는 정수 쌍 목록입니다. 예를 들어 [[1, 123]]두 번째로 생성된 토큰은 항상 인덱스 123의 토큰임을 의미합니다.
generate의 출력 변수를 정의하는 매개변수

num_return_sequences( int, optional , defaults to 1) — 배치의 각 요소에 대해 독립적으로 계산된 반환 시퀀스의 수입니다.
output_attentions ( bool, optional , defaults to False) — 모든 어텐션 레이어의 어텐션 텐서를 반환할지 여부. 자세한 내용은 attentions언더 리턴된 텐서를 참조하십시오.
output_hidden_states ( bool, optional , defaults to False) — 모든 레이어의 숨겨진 상태를 반환할지 여부. 자세한 내용은 hidden_states언더 리턴된 텐서를 참조하십시오.
output_scores ( bool, optional , defaults to False) — 예측 점수를 반환할지 여부. 자세한 내용은 scores언더 리턴된 텐서를 참조하십시오.
return_dict_in_generate ( bool, optional , defaults to ) — 일반 튜플 대신 ModelOutputFalse 을 반환할지 여부 .

profile
열심히 사는 중

0개의 댓글