[프로젝트] 현재 진행 상황과 문제점

김바덕·2023년 9월 20일
0

프로젝트

목록 보기
9/9
post-thumbnail

현재 진행 상황은 ?

중복 데이터 삭제하고 다시 기사 크롤링 하며 데이터 수집하는 중

발생한 문제점

  1. ORG 코드의 성능 문제 -> 코드 개선이 필요
  1. 긍/부정 분류 모델의 성능 문제 -> 정확도 향상이 필요 -> 다른 모델을 사용해야 하나 ?
  1. 크롤링 할 때 지속적으로 중복 기사가 db에 들어가는 문제 -> 코드 수정 필요
  1. 크롤링 코드를 아예 기간별로 한꺼번에 가져오는걸로 바꿀지 고민중 ..
    -> why?
    하루에 수집하는 기사의 양이 너무 적고, 중복 데이터가 너무 많이 발생해서

앞으로 할 일

  1. 긍/부정 분류 모델 성능 향상시키기
  2. ORG 코드 성능 향상 시키기 -> KPF-BERT(신문기사 특화 모델)로 모델 바꿔보기

위의 두 가지 문제와 크롤링 코드에서 중복 데이터 들어가지 않게 해결하면
크롤링 한꺼번에 안해도 됨

profile
UXUI Designer

0개의 댓글

관련 채용 정보