CS224N 1주차 Assignment

진수·2024년 1월 1일

NLP cs224n stanford

CS224N

목록 보기

1/5

아직 정답을 모르는 상태로 글을 작성하는 점 유의해주시기 바랍니다.

이번 1,2강은 word2vec 논문리뷰와 여러가지 GloVe등 논문에 관련된 지표를 비교하는 수업이었다. 영어를 수강하느라고 시간이 좀 걸렸지만, 좀 힘들었다...

Part 1

Corpus(말뭉치 : 문단 또는 책등 여러가지가 될 수 있음)로부터 다음과 같은 Co-Occurrence plot을 완성하는 코드를 작성해야 했다.

Part 1

read_corpus를 제공해 주었고, 이의 결과값은 다음과 같았다.

대충 이런식으로 corpus안에 space를 기준으로 전부 나누어주고, 이를 list로 저장해 주었다.

Q 1.1

문제를 보면, corpus_words를 만들어주는 함수를 작성하는 것이다.
corpus_words 에는 단어들이 중복될 수 없고, sorted 해야했다.

코드를 다음과 같이 작성했고, test를 돌린 결과 성공

Q 1.2

여기서부터 조금 난관이다.

compute_co_occurrence_matrix함수를 작성하는것이 과제인데, 이는 위에서 보여주었던 Co-Occurrence table을 corpus와 window size를 제공받으면 작성해 주어야했다.
내가 짠 코드는 다음과 같은데 여러가지 문제가 생겼다.