중복 데이터 삭제하고 다시 기사 크롤링 하며 데이터 수집하는 중
- ORG 코드의 성능 문제 -> 코드 개선이 필요
- 긍/부정 분류 모델의 성능 문제 -> 정확도 향상이 필요 -> 다른 모델을 사용해야 하나 ?
- 크롤링 할 때 지속적으로 중복 기사가 db에 들어가는 문제 -> 코드 수정 필요
- 크롤링 코드를 아예 기간별로 한꺼번에 가져오는걸로 바꿀지 고민중 ..
-> why?
하루에 수집하는 기사의 양이 너무 적고, 중복 데이터가 너무 많이 발생해서
위의 두 가지 문제와 크롤링 코드에서 중복 데이터 들어가지 않게 해결하면
크롤링 한꺼번에 안해도 됨