TIL 0903

Junseong Park·2024년 9월 3일

TIL

목록 보기
7/7
  1. dataset
    dataset은 python 기본 라이브러리에서 제공해주는 것 같은데,
    약간 relation table 같다는 생각이 들었다.
    print()로 찍어보니까

    Dataset({ 
      features: ['en', 'de', 'en_tokens', 'de_tokens'], 
      num_rows: 29000 
    })

    와 같은 느낌으로 되어있었음.

  2. dataset.map
    이 함수로 각 행의 feature를 정의해줄 수 있는 것 같다.
    다른 행에 대한 정보가 필요한 경우는 어떻게 할지 모르겠지만
    일단은 dataset.map(f)와 같은 식으로 feature가 불어나는 듯
    f는 dict 꼴로 return이 있어야 한다.

  3. dataset에서 feature 긁어 오기
    dataset["en"]처럼 특정 feature에 대해서 참조하면 그 열을 다 뽑아올 수 있는 것 같다.
    과제에서는 dataset["train"]으로 먼저 dict에서 dataset을 꺼내 준 다음, dataset에서 열을 뽑아와야 했다.

profile
부스트캠프 AI Tech 7기

0개의 댓글