오후에 교수님과 미팅이 있다. 지난 한 주는 5000번대부터 10400개까지 5400개 정도의 데이터셋 태깅이 완료됐다. 그동안 데이터 구축하고 다른 프로젝트까지 하느라 기록을 잘 못했는데.. 이제 다시 꾸준히 해야지. 완성된 결과물은 다음과 같다.
지금보니까 10676개다 ㅎㅎ 위에 보이는 열 표시처럼
Original Stereotype 에서 Opposite meaning을 GPT 프롬프트로 만든다.
이때 만든 반대의미 문장에 문제가 있어 각각 태깅을 해주었다. Need Redo, Fixed, Hate, Not anti, Odd, no und
각각은 다시 넣어야함, 수정됨, 혐오표현포함, 여전히 anti 아님, 이상함, 이해하지 못함이란 의미고 평균적으로 Not anti 가 가장많았다.
지난주까지 논의한 바로는 Need Redo와 Not anti 까지는 다시, Odd 는 버리고 No und 는 추가적으로 연구에 활용하는 쪽으로 방향을 잡았다. (이 부분 수정 가능)
아마 그래도 이번주부턴 적용해볼만한 코드 찾고 돌려보기까지 베이스라인 정도 맞춰보지 않을까 싶은데.. 저번에는 MABEL 논문 이야기가 나왔긴하다. 어떤 코드를 돌릴지 다시 확정이 필요하다. (돌리기 전에 코드분석이랑 어떤 데이터를 어디에다 넣을지, 코드 수정 등등 필요하지 않을까 싶다...)
그럼 이번주 할 일은
정도가 될 거 같다. 생각보다 할 게 많다..