dataset
dataset은 python 기본 라이브러리에서 제공해주는 것 같은데,
약간 relation table 같다는 생각이 들었다.
print()로 찍어보니까
Dataset({
features: ['en', 'de', 'en_tokens', 'de_tokens'],
num_rows: 29000
})
와 같은 느낌으로 되어있었음.
dataset.map
이 함수로 각 행의 feature를 정의해줄 수 있는 것 같다.
다른 행에 대한 정보가 필요한 경우는 어떻게 할지 모르겠지만
일단은 dataset.map(f)와 같은 식으로 feature가 불어나는 듯
f는 dict 꼴로 return이 있어야 한다.
dataset에서 feature 긁어 오기
dataset["en"]처럼 특정 feature에 대해서 참조하면 그 열을 다 뽑아올 수 있는 것 같다.
과제에서는 dataset["train"]으로 먼저 dict에서 dataset을 꺼내 준 다음, dataset에서 열을 뽑아와야 했다.