[AIFFEL 대전 1기] 72일째 날

데이터 여행자·2021년 4월 13일

[일기]

목록 보기
73/105

Going Deeper - Lecture, Project

오늘은 하루 종일 Going Deeper를 하는 날이다. 오전 중에 어제 마무리 못했던 FastText와 GloVe 부분을 정리했다. 혼자서 고잉 디퍼를 하다보면 이해가 안 가거나 막히는 부분이 생긴다. 대부분 검색을 통해서 해결하지만 가끔은 다른 사람들은 어떤지 궁금하다. 예를 들어 Word2Vec이나 FastText 부분에서 코드 오류가 났는데, 나만 이상한 건가 싶은 거다. 조별로 있을 때는 같은 조원들에게 묻고는 했지만 지금은 거의 각자 있다보니 누군가에게 질문하기가 조금 힘들다. 그리고 다들 공부하고 있는 진도가 다르기 때문에 질문을 해도 답을 못 얻는 경우도 있다.

오늘도 프로젝트에서 이해가 안 되는 부분이 생겼다. 오늘의 프로젝트 내용은 워드 임베딩의 편향성을 계산해주는 WEAT score를 구현하는 것이었다. 먼저 WEAT score의 수식을 보고 구현해보는 과정이 있는데, 수식 구현하는 부분에서 궁금증이 생겼다.

위의 식에서 A, B는 속성인 attribute 데이터 셋이고, x, y, w는 target 데이터셋에 속한 단어이다. A-B를 축으로 잡아 target 단어와의 유사성을 계산해서 WEAT score를 구하는 것이다. 노드에서는 설명은 그렇게 해 놓고 예시 구현은 target 단어를 축으로 삼아서 attribute에 속한 단어와의 유사성을 구하도록 하였다. (수식이나 함수 구현은 제대로 했다.) 그 부분이 이해가 안 가서 퍼실님께 질문을 했다. 퍼실님은 그 부분이 조금 오류가 있지만 개념적인 부분은 같다고 하셨다.

그래서 예시 구현 부분을 고쳐서 실행을 했지만 또 문제가 생겼다. 뒷 부분도 계속해서 target 데이터셋을 축으로 삼고 WEAT score를 구하는 식으로 노드를 진행하기 때문에 코드를 고쳐서 실행하면 마지막 부분에서 제대로 된 결과값이 나오지 않는다. 결국 노드대로 따라갈 수 밖에 없었다. 아마 프로젝트도 노드에 나온대로 따라가야 할 것 같다. 이렇게 사소한 문제가 신경쓰이는 내가 너무 예민한 건가 싶다. 다들 아무 말도 없고 퍼실님도 괜찮다고 하니 그냥 넘어가지만 마음 한 구석이 찝찝한 것은 어쩔 수 없다.

다행히 오늘 나간 프로젝트의 진도는 다 나갔다. 이제 프로젝트 작성만 남았는데, 생각할 거리가 있어서 고민된다. target이나 attribute 데이터셋을 노드에서는 TF-IDF로 만들었는데, TF-IDF에는 중복 단어가 나오는 문제점이 있어서 WEAT score 결과에 안 좋은 영향을 끼친다고 한다. 그래서 새로운 방법으로 데이터셋을 만들어야 하는데, 어떤 방법을 사용해야 하는지 고민이 된다.

수업을 마치고

어제부터 비가 오더니 오후가 되니 날씨가 맑아졌다. 밖에 나가고 싶지만 할 일이 많다. 스터디 준비도 해야 하고, 코딩 마스터 숙제도 오늘 자정까지 있다. 지난주에 나온 숙제가 갑자기 어려워져서 문제를 어떻게 풀어야 하는지 모르겠다. 몰라서 정답을 찾아봤지만 정답을 봐도 이해하기 힘들었다. 아무 말 없으면 제출하지 않으려고 했더니 자정까지 내라고 연락이 왔다. 게다가 내일 코딩 마스터 예습도 해야 한다. 힘내자, 화이팅!

0개의 댓글