[koala] 데이터 수집 디버깅 로그

O(logn)·2023년 11월 8일

KOALA 프로젝트

목록 보기
2/9

큰일났다 네이버 링크 수집이 막혔다.. 뒤늦게 robots.txt를 확인해보니깐 arcademic 사이트에서 doc_id가 포함된 URL 크롤링을 막고 있었다.

각 웹사이트별 정책이 천차만별이라 일일이 찾아봤어야 했는데 경험이 없다보니 이렇게 실수하면서 하나 배운다.

이제 어떤 방법을 취할 수 있을까 생각을 해보자.

  1. 유료 구글 api로 수집하기
  • 또 웹사이트 정책상 막히면 topic만으로 어떤 웹사이트에 해당 논문이 실려있는지 알 수 없기 때문에 무한 에러와 마주하게 될 것으로 예상된다.
  • 그럴 바에는 그냥 크롤링이 자유로운 웹사이트를 찾아 전체 긁어오기를 하는 것이 낫겠다는 생각이 든다.

갑자기 뭔가 큰 벽을 마주한 느낌이다. 계획이 다 어그러져서.. 지금 할 수 있는게 없어보인다. 그럴 땐 다른 일을 하다가 돌아오는 것이 도움이 되지 않을까 싶다. 내일 미팅 때 더 논의해보고 방법을 찾아보는걸로!!

profile
聞一知十

0개의 댓글