LG U+ Why Not SW CAMP 7기 16주차 회고

gayoniee·2025년 8월 31일

회고

목록 보기
16/25

2차 프로젝트 회고

1일차

ERD 다이어그램을 설계하는 데에 생각보다 시간이 많이 들었고,

데이터를 얻기가 어려워 가상의 데이터를 만들기로 하고 랜덤으로 데이터를 생성하는 페이지를 구성해 가져왔는데 만든 것도 활용하려 해보니 허점이 많았다. 데이터를 잘 가공해서 원하는 대로 만들어 최대한 결과를 끌어내봐야겠다.

2일차

오늘은 대시포드 탭 중 머신러닝 부분에 집중했는데 샘플/가공 데이터라 날짜 가용성, 요일/시간대 불균형, 결측 처리에 시간이 많이 들었다. 쓸만한 신뢰도의 검증점수가 나와야 하는데 결과 안정성이 낮다고 느껴졌다. 시간이나 요일별로 분포를 잘 고려하여 만들었어야 한다고 생각했다.

대시보드는 로컬 구현은 대체로 잘 됐지만 API 연동을 살짝 시도하니 이슈가 겹쳐 쉽지 않았다…

3일차

코드를 합칠 때에는 csv파일을 불러와서 실행하는 흐름이었는데 오늘은 api 연동으로 바꿔서 데이터를 끌어와서 보여줄 수 있게 코드를 수정하였다. DB에서 데이터를 불러와 그걸 함수의 매개변수로 넘겨주어 스트림릿으로 보여지게 하였다.

소상공인 정책자금 홈페이지에서 공지사항에 첨부된 파일들을 크롤링하여 저장하는데 잘 되다가 중간에 구조가 이상한 페이지가 있어서 에러가 났다 -> 원하는 태그가 있어도 내용이 비어있으면 스킵하도록 예외처리를 구현하였다.

내일은 가져온 파일들을 텍스트로 잘 변환하고 청킹, 임베딩까지 해보려고 한다.

4일차

대시보드에 관련해서 명확한 목적이 필요하다는 생각이 들었다. 데이터로 관리자에게 보여줄 수 있는 좋은 인사이트가 무엇인지를 생각해서 3차 프로젝트 시작할 때 더 구체적인 대시보드를 구현해봐야겠다고 생각한다.

현재는 어제 크롤링해온 문서들을 원하는 형태로 변환하는 작업을 수행 중인데,  자르는 건 둘째 치고 pdf와 hwp파일을 변환하는 것 부터 큰 난관에 봉착했다. 일단은 문서 하나만 텍스트 파일로 변환하여 청킹을 해봤는데 붙으면 안되는 글자가 붙어있고, 띄어 쓰면 안되는 글자가 떨어져 있어서 원하는 형태에 도달하기까지는 시간이 걸릴 것 같다.

5일차

오늘은 프로젝트의 마지막 날이라 임베딩까지 해보고 싶었다. 청킹은 문서 하나로 정규표현식을 이용하여 하였고, 임베딩은 팀원 각자 찾아본 모델로 다르게 진행해보았다. 검색할 때에는 모델마다 당연히 차이가 있었고, 어떤 기준으로 검색을 해오는 지는 아직 잘 파악하지 못하였다.
최종 발표에서는 대시보드에 대한 피드백을 주셨다.
현재 만들어둔 대시보드는 솔직하게 허점도 많고 쓰일 수 있을 만한 내용이 없다는 것이었고, 어떤 화면에서 그 데이터들을 가져오고, 저장하고 보여줄지 생각을 잘 안해본 점이 많이 아쉬움으로 남았다.
2차 프로젝트가 대시보드를 구현하는 것이 목적이었지만 우리 팀은 청킹과 임베딩을 해보는 것에 욕심을 두고 진행하여서 당연한 결과가 아니었을까 싶지만 3차 프로젝트를 위해 천천히 다시 생각해볼 필요가 있을 듯 하다.

상담사가 보는 화면을 기준으로 어떤 정보를 입력하고 들어온 데이터를 어떻게 저장하고 그걸 활용하며 어떤 정보를 보여줄 것인지, 프로젝트 시작 전에 각자 스트림릿 실습으로 만들어보았던 ui를 합쳐보는 것도 방법이 될 수 있을 것 같다.

0개의 댓글